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数据 挖 据 MASA on wes 


Data Mining Concepts and Techniques Third Edition 


数据 挖掘 领域 最 具 里 程 碑 意义 的 经 典 著 作 
完整 全 面 阐述 该 领域 的 重要 知识 和 技术 创新 


我 们 生活 在 数据 洪流 的 时 代 。 本 书 向 我 们 展示 了 从 这 村 海归 的 数据 中 找到 有 用 知识 的 方法 和 技术 。 最 新 的 第 3 版 显著 扩充 

了 数据 预 处 理 、 挖 掘 频 繁 模式 、 分 类 和 聚 类 这 几 个 核心 章节 的 内 容 ， 还 全 面 讲述 了 OLAP 和 离 群 点 检测 ， 并 研讨 了 挖掘 网 络 、 
复杂 数据 类 型 以 及 重要 应 用 领域 。 本 书 将 是 一 本 适用 于 数据 分 析 、 数 据 挖掘 和 知识 发 现 课程 的 优秀 教材 。 

—— Gregory Piatetsky-Shapiro, KDnuggets 的 总 裁 


Jiawei、Micheline 和 Jian 的 教材 全 景 式 地 讨论 了 数据 挖掘 的 所 有 相关 方法 ， 从 聚 类 和 分 类 的 经 典 主题 ， 到 数据 库 方法 ( 关 

联 规则 、 数 据 立 方 体 ) ， 到 更 新 和 更 高 级 的 主题 ( SVD/PCA、 小 波 、 支 持 向 量 机 ) ， 等 等 。 总 的 说 来 ， 这 是 一 本 既 讲述 经 典 
数据 挖掘 方法 又 涵盖 大 量 当代 数据 挖掘 技术 的 优秀 著作 ， 既 是 教学 相 长 的 优秀 教材 ， 又 对 专业 人 员 具 有 很 高 的 参考 价值 。 

一 一 摘自 卡 内 基 - 梅 隆 大 学 Christos Faloutsos 教 授 为 本 书 所 作 序 言 


当代 商业 和 科学 领域 大 量 激增 的 数据 量 要 求 我 们 采用 更 加 复杂 和 精细 的 工具 来 进行 数据 分 析 、 处 理 和 挖掘 。 尽 管 近 年 来 数 
据 挖掘 技术 取得 的 长 足 进 展 使 得 我 们 广泛 收集 数据 越 来 越 容 易 ， 但 技术 的 发 展 依然 难以 匹配 爆炸 性 的 数据 增长 以 及 随 之 而 来 的 
大 量 数据 处 理 需 求 ， 因 此 我 们 比 以 往 更 加 人 迫切 地 需要 新 技术 和 自动 化 工具 来 帮助 我 们 将 这 些 数 据 转换 为 有 用 的 信息 和 知识 。 

本 书 前 版 曾 被 KDnuggets 的 读者 评选 为 最 受 欢迎 的 数据 挖掘 专著 ， 是 一 本 可 读 性 极 佳 的 教材 。 它 从 数据 库 角度 全 面 系统 地 
介绍 数据 挖掘 的 概念 、 方 法 和 技术 以 及 技术 研究 进展 ， 并 重点 关注 近年 来 该 领域 重要 和 最 新 的 课题 
技术 ， 流 数据 挖掘 ， 社 会 网 络 挖掘 ， 空 间 、 多 媒体 和 其 他 复杂 数据 挖掘 。 每 章 都 针对 关键 专题 有 单独 的 指导 ， 提 供 最 佳 算法 ， 
“并 对 怎样 将 技术 运用 到 实际 工作 中 给 出 了 经 过 实践 检验 的 实用 型 规则 。 如 果 你 希望 自己 能 熟练 掌握 和 运用 当今 最 有 力 的 数据 挖 
掘 技术 ， 那 本 书 正 是 你 需要 阅读 和 学 习 的 宝贵 资源 。 本 书 是 数据 挖掘 和 知识 发 现 领域 内 的 所 有 教师 、 研 究 人 员 、 开 发 人 员 和 用 
户 都 必 读 的 一 本 书 。 





本 书 特 色 
@ T o ae 全 部 以 易于 理解 的 伪 代 码 编写 ， 适 用 于 实际 的 大 规模 数据 挖掘 项 目 。 
e 讨论 了 一 些 高 ， 例 如 挖掘 面向 对 象 的 关系 型 数据 库 、 空 间 数据 库 、 多 媒体 数据 库 、 时 间 序 列 数据 库 、 文 本 数据 库 、 


HA T 
@ 全 面 而 实用 地 给 出 用 于 从 海量 数据 中 获取 尽 可 能 多 信息 的 概念 和 技术 。 
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本 书 完整 全 面 地 讲述 数据 挖掘 的 概念 、 方 法 、 技 术 和 最 新 研究 进展 。 本 书 对 前 两 版 做 了 
全 面 修 订 ， 加 强 和 重新 组 织 了 全 书 的 技术 内 容 ， 重 点 论述 了 数据 预 处 理 、 频 繁 模 式 挖 气 、 分 
类 和 夺 类 等 的 内 容 ， 还 全 面 讲述 了 OLAP 和 离 群 点 检测 ， 并 研讨 了 挖 拥 网 络 、 复 杂 数 据 类 型 以 
及 重要 应 用 领域 。 

本 书 是 数据 挖 据 和 知识 发 现 领 域内 的 所 有 教师 、 研 究 人 员 、 开 发 人 员 和 用 户 都 必 读 的 参 
考 书 ， 是 一 本 适用 于 数据 分 析 、 数 据 挖 括 和 知识 发 现 课 程 的 优秀 教材 ， 可 以 用 做 高 年 级 本 科 
生 或 者 一 年 级 研究 生 的 数据 挖 抉 导论 教材 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 各 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 玖 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 得 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V, Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍 
藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 馆 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com 
电子 邮件 : hzjsj@ hzbook. com 
联系 电话 : (010) 88379604 | 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 PEAN 
邮政 编码 : 100037 T 





中 文 版 序 | 


Data Mining: Concepts and Techniques, Third Edition 


We are pleased to see that our third edition has been translated into Chinese by Professor Fan 
and Meng. The first two editions were translated by them several years ago and have been well re- 
ceived among Chinese readers. In recent years, we have witnessed tremendous progress in the field 
of data mining research and applications internationally. As a promising new technology, data mining 
has attracted tremendous interest in the Far East as well. Numerous international and regional confer- 
ences on data mining and applications have appeared or held in this region. Many Chinese research- 
ers have been playing an active role, contributing in both research and applications to the advances 
of this young field. 

In this third edition, we have carefully selected and tailored the technical materials to be cov- 
ered for the courses on data mining at both the undergraduate level and the first- year graduate lev- 
el. We have updated and enhanced the existing chapters substantially with many new topics. Thus, 
we expect the publication of this edition in Chinese will help Chinese readers to learn and master the 
latest technology and put them into promising new applications. 

With best regards, 


(非常 高 兴 地 看 到 本 书 的 第 3 版 由 范 明 和 备 小 峰 教 授 翻 译 成 中 文 。 几 年 前 ， 他 们 翻译 了 
本 书 的 前 两 版 并 被 中 文 读者 广泛 接受 。 近 年 来 ， 我 们 见证 了 数据 挖掘 研究 和 应 用 领域 在 世界 
范围 内 的 巨大 进展 。 作 为 一 种 具有 良好 发 展 势头 的 新 技术 ， 数 据 挖掘 在 远东 也 引起 了 极 大 兴 
趣 。 许 多 国际 或 地 区 性 的 数据 挖 据 和 应 用 会 议 已 经 在 该 地 区 出 现 或 召开 。 许 多 中 国 的 研究 者 
一 直 起 着 积极 作用 ， 为 推动 这 个 年 轻 领 域 的 研究 和 应 用 做 出 了 贡献 。 

在 第 3 版 中 ， 我 们 对 所 包含 的 技术 内 容 进 行 了 精心 挑选 和 剪裁 ， 以 便 用 于 本 科 生 和 一 -年 
级 研究 生 的 “数据 挖掘 ”课程 。 我 们 用 许多 新 的 主题 ， 大 幅度 地 更 新 和 加 强 了 已 有 的 章节 。 
因而 ， 我 们 期 望 这 个 中 文 版 将 帮助 中 文 读者 学 习 和 掌握 这 些 最 新 技术 ， 并 将 它们 用 于 有 希望 
的 新 应 用 。 

遵 致 良好 祝愿 !) 


Jiawei Han, Micheline Kamber, and Jian Pei 
June 2012 
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2001 Æ, Jiawei Han ( 韩 家 炜 ) 和 Micheline Kamber 出 版 了 数据 挖掘 领域 具有 里 程 碑 意 
义 的 著作 一 一 本 书 的 第 1 版 。2006 年 ， 他 们 又 推出 了 本 书 的 第 2 版 。 在 这 个 龙 年 (2012 
年 ) ， 我 们 看 到 了 本 书 的 第 3 版 ， 并 且 欣 喜 地 看 到 该 书 增加 了 一 位 新 的 、 年 青 的 华人 合 著者 
Jian Pei (Fë). 

数据 挖掘 是 数据 库 研 究 、 开 发 和 应 用 最 活跃 的 分 支 之 一 。 这 是 很 自然 的 事 。 数 据 库 系 
统 ， 特 别 是 关系 数据 库 系统 的 成 功 ， 使 得 我 们 有 了 强 有 力 的 事务 处 理工 具 。 在 计算 机 的 帮助 
下 ， 人 们 可 以 把 传统 的 事务 处 理 做 得 更 好 。 不 满足 现状 是 社会 前 进 的 动力 。 人 类 当然 不 会 仅 
仅 满足 于 让 计算 机 做 事务 处 理 。 从 信息 处 理 的 角度 ， 人 们 更 希望 计算 机 帮助 分 析 数 据 和 理解 
数据 ， 帮 助 他 们 基于 丰富 的 数据 做 出 决策 。 于 是 ， 数 据 挖掘 (从 大 量 数据 中 以 非 平凡 的 方 
法 发 现 有 用 的 知识 ) 就 成 为 一 种 自然 的 需求 。 正 是 这 种 需求 引起 了 人 们 的 关注 ， 导 致 了 数 
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数据 挖掘 是 一 个 多 学 科 的 交叉 领域 。 这 也 是 很 自然 的 事 。 一 方面 ， 想 要 以 非 平凡 的 方法 
发 现 列 藏 在 大 型 数据 集中 的 有 用 知识 ， 数 据 挖掘 必须 从 统计 学 、 机 器 学 习 、 神 经 网 络 、 模 式 
识别 、 知 识 库 系 统 、 信 息 检 索 、 高 性 能 计算 和 可 祝 化 等 学 科 领 域 汲取 营养 。 另 一 方面 ， 这 些 
学 科 领 域 也 需要 从 不 同 角度 关注 数据 的 分 析 与 理解 ， 数 据 挖 气 也 为 这 些 学 科 领 域 的 发 展 提供 
了 新 的 机 过 和 挑战 。 今 天， 数据 挖 气 已 经 不 再 仅仅 是 数据 库 的 研究 者 和 开发 者 关注 的 问题 ， 
它 已 经 成 为 统计 学 、 机 器 学 习 等 诸多 领域 的 研究 者 和 开发 者 的 热点 课题 之 一 。 这 种 学 科 交 又 
融合 带 来 的 良性 互动 ， 无 疑 促进 了 包括 数据 挖掘 在 内 的 诸 学 科 的 发 展 与 繁 茉 。 

自 本 书 第 1 版 问世 已 经 过 去 了 11 年 。 在 过 去 的 11 年 中 ，Jiawei Han 教授 多 次 来 华 讲 学 ， 
我 们 先后 翻译 了 本 书 的 第 1 版 和 第 2 版 。 国 内 许多 大 学 都 纷纷 开设 数据 挖掘 课 程 ， 其 中 大 部 
分 学 校 都 使 用 本 书 的 英文 版 或 中 文 版 。 我 们 高 兴 地 看 到 数据 挖 据 的 研究 与 应 用 在 我 国 的 攻 勃 
开展 。 许 多 学 者 和 研究 人 员 都 对 这 个 新 兴 的 学 科 领 域 表 现 出 了 极 大 的 兴趣 ， 他 们 不 仅 来 自 数 
据 库 领 域 ， 而 且 包括 统计 学 、 人 工 知 能、 模式 识 别 、 机 器 学 习 等 领域 的 研究 人 员 。 国 内 的 学 
者 和 开发 者 在 数据 挖掘 方面 的 研究 与 应 用 方面 已 经 取得 了 许多 令 人 坑 舞 的 成 果 。 特 别 值得 一 
提 的 是 ， 近 年 来 ， 数 据 库 的 顶级 学 术 会 议 SGCMOD 、ICDE 和 数据 挖掘 的 顶级 学 术 会 议 KDD 
都 相继 在 国内 举办 。 

过 去 的 11 年 是 数据 挖 气 研 究 与 应 用 迅猛 发 展 的 11 年 : 新 的 和 改进 的 算法 不 断 出 现 ， 所 
考察 的 数据 类 型 日 趋 丰富 ， 应 用 领域 逐渐 扩大 。 虽 然 所 挖掘 的 基本 知识 类 型 并 未 增加 很 多 ， 
但 是 新 的 应 用 需要 我 们 处 理 更 加 丰富 的 数据 类 型 ， 如 流 、 序 列 、 图 、 时 间 序 列 、 符 号 序列 、 
生物 学 序列 、 空 间 、 音 频 、 图 像 和 视频 数据 ， 因 此 需要 新 的 技术 。 例 如 ， 流 数据 的 关联 、 分 
类 和 聚 类 需要 处 理 可 能 无 限 的 数据 ， 需 要 考虑 数据 的 分 布 随时 间 的 演变 。Web 页 面 的 分 类 
不 仅 震 要 考虑 页 面 本 身 的 特征 ， 而 旦 还 需要 考虑 页 面 的 链接 和 被 链接 的 页 面 的 特征 。 

第 3 版 对 本 书 的 前 两 版 进行 了 全 面 修订 ， 突 出 和 加 强 了 数据 挖掘 的 核心 内 容 ， 以 足够 的 
广度 和 深度 涵盖 该 领域 的 核心 内 容 。 认 识 数据 和 数据 预 处 理 、 数 据 仓库 和 OLAP 技术 、 模 式 
挖掘 与 关联 分 析 、 分 类 、 聚 类 都 分 成 两 章 。 其 中 ， 前 一 章 介 绍 基本 概念 和 技术 ， 后 一 章 进 一 
步 讨论 更 高 级 的 概念 和 方法 。 离 群 点 检测 单独 成 为 一 章 ， 进 行 更 深入 的 讨论 。 最 后 一 章 对 数 
据 挖 扎 研 究 与 应 用 发 展 趋势 进行 了 概述 ， 把 读者 引 疝 更 深入 的 主题 。 与 前 两 版 相 比 ,第 3 版 
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的 组 织 更 有 利于 教学 。 

如 果 说 11 年 前 本 书 的 问世 标志 数据 挖掘 领域 已 见 雏 形 ，5 年 前 该 书 第 2 版 的 出 版 预示 
数据 挖掘 开始 进入 了 成 熟 期 ， 那 么 第 3 版 的 出 版 表明 数据 挖掘 已 经 在 向 纵深 发 展 ， 其 最 基本 
层面 的 内 容 已 经 趋 于 稳定 ， 在 计算 学 科 的 高 年 级 本 科 生 和 研究 生 中 广泛 开展 数据 挖掘 课程 的 
教学 已 经 是 万 事 俱 备 。 

Jiawei Han 教授 早年 就 读 于 郑州 大 学 ， 后 赴 美国 留学 ， 在 威斯康辛 大 学 获 硕 士 和 博士 学 
位 。 他 曾 先后 在 美国 西北 大 学 、 加 拿 大 西蒙 - 弗 雷 泽 大 学 任教 ， 现 在 是 美国 伊利 诺 伊 大 学 厄 
巴 纳 -- 尚 佩 恩 分 校 计算 机 科学 系 的 Bliss 教授 。Jiawei Han 教授 是 数据 挖 气 和 数据 库 系统 领域 
国际 知名 学 者 ，ACM 和 IEEE 会 士 。 他 曾 因 在 该 领域 的 杰出 贡献 多 次 获奖 ， 包 括 ACM SIGK- 
DD 创新 奖 〈2004) IEEE 计算 机 学 会 技术 成 就 奖 (2005) AIEEE W. Wallace McDowell % 
(2009) 。 

徐 华 、 叶 阳 东 、 姬 安 明 、 王 静 、 李 成 恩 、 李 浴 薄 等 参加 了 第 1 版 的 部 分 翻译 工作 ， 马 玉 
书 、 董 云海 对 第 1 版 的 部 分 译 稿 提 出 了 很 好 的 修改 意见 。 第 2 版 由 范 明和 和 孟 小 峰 翻 译 ， 译 者 
的 许多 同事 、 朋 友和 学 生 ， 如 咎 红 英 博士 和 范 宏 建 博士 ， 阅 读 了 第 2 版 的 部 分 译 稿 ， 并 提出 
了 一 些 建议 和 意见 。 第 3 版 由 范 明和 孟 小 峰 翻 译 。 译 者 的 学 生 郭 华 平 、 李 嘉 、 张 亚 亚 和 李 了 晓 
HEB IM TH 3 版 的 校对 工作 。 

感谢 本 书 的 作者 Jiawei Han 教授 。 无 论 是 第 1 版 、 第 2 版 ， 还 是 第 3 版 的 翻译 都 得 到 了 
他 的 大 力 支持 ， 他 提供 的 方便 使 得 本 书 的 翻译 工作 能 够 在 第 一 时 间 进 行 。Jiawei Han 教授 还 
专门 为 第 2 版 和 第 3 版 的 中 文 版 撰写 了 序言 。 

感谢 机 械 工业 出 版 社 华 章 公 司 的 编辑 们 ， 是 他 们 的 远见 使 得 本 书 能 够 尽快 与 读者 见面 。 

在 第 3 版 的 翻译 中 ， 我 们 重新 调整 了 部 分 术语 的 翻译 。 读 过 第 1 版、 第 2 版 的 读者 不 难 
RM, 第 3 版 出 现 了 许多 的 新 术语 ， 尚 无 固定 译 法 。 尽 管 我 们 力图 为 它们 选择 简洁 、 达 意 的 
中 文 术语 ， 但 仍然 难免 出 现 词 不 达意 之 处 。 译 文中 的 错误 和 不 当 之 处 ， 敬 请 读者 朋友 指正 。 
意见 请 发 往 mfan@ zzu. edu. cn ， 我 们 将 不 胜 感激 。 

我 们 将 尽快 向 采用 本 书 的 教师 提供 讲稿 和 其 他 辅助 支持 。 希 望 读者 喜欢 这 本 译 著 ， 和 希望 
这 本 译 著 有 助 于 进一步 推动 我 国 的 数据 挖掘 教学 、 研 究 和 应 用 的 深 和 人 开展 。 


范 明 孟 小 峰 
2012 年 6 月 
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范 明 ”郑州 大 学 信息 工程 学 院 教授 ， 博 士 生 导师 。 现 为 中 国 计 
算 机 学 会 数据 库 专 业 委员 会 委员 、 人 工 智能 与 模式 识别 专业 委员 会 
委员 。 长 期 从 事 计算 机 软件 与 理论 教学 和 研究 。 主 要 讲授 的 课程 包 
括 程序 设计 、 计 算 机 操作 系统 、 数 据 库 系 统 原理 、 知 识 库 系 统 原 理 、 
数据 挖掘 与 数据 仓库 等 。1989 一 1990 年 曾 访问 加 拿 大 Simon Fraser 
大 学 计算 机 科学 系 ， 从 事 演绎 数据 库 研 究 。1999 年 曾 访问 美国 
Wright State 大 学 计算 机 科学 与 工程 系 ， 从 事 数 据 挖掘 研究 。 当 前 感 兴 
趣 的 研究 方向 包括 数据 控 握 和 机 器 学 习 。 先 后 发 表 论 文 60 余 篇 。 除 本 
书 外 ， 还 主持 翻译 了 Pang- Ning Tan, Michael Steinbach 和 Vipin Kumar 的 《数据 控 掘 导论 》。 





m/e 博士 ， 中 国人 民 大 学 信息 学 院 教授 ， 博 士 生 导师 。 现 
为 中 国 计 算 机 学 会 常务 理事 、 中 国 计 算 机 学 会 数据 库 专 委 会 秘书 长 ， 
«Journal of Computer Science and Technology), «Frontiers of Computer 
Science》、《 软 件 学 报 》 《计算 机 研究 与 发 展 》 等 编 委 。 主 持 或 参加 
过 二 十 多 项 国家 科技 攻关 项 目 、 国 家 自然 科学 基金 项 目 以 及 国家 
863 项 目 、973 项 目 ， 先 后 获 电子 部 科技 进步 特等 奖 (1996). IER 
市 科技 进步 二 等 奖 (1998、2001)、 中 国 计 算 机 学 会 “王选 奖 ” 一 
FK (2009 ) 、 北 京 市 科学 技术 奖 二 等 奖 (2011) SR, AE 
“中 创 软 件 人 才 奖 ”(2002) 、“ 教 育 部 新 世纪 优秀 人 才 支 持 计划 ” (2004)、“ 第 三 届 北 京 市 
高 校 名师 奖 ”(2005) 。 近 5 年 在 国内 外 杂志 及 国际 会 议 发 表 论文 120 多 篇 ， 出 版 学 术 专 著 
«Moving Objects Management; Models, Techniques, and Applications) (Springer) 、《XML 数据 
管理 : 概念 与 技术 》、《 移 动 数据 管理 : 概念 与 技术 》 (中 国 计 算 机 学 会 学 术 著 作 丛 书 ) 等 。 
获 国 家 发 明 专 利 授权 8 项 。 近 期 主要 研究 领域 为 互联 网 络 与 移动 数据 管理 ， 包 括 Web 数据 
集成 、XML 数据 库 系统 、 云 数据 管理 、 闪 存 数据 库 系统 、 隐 私 保护 等 。 





第 3 版 序 | 


Data Mining: Concepts and Techniques, Third Edition 


分 析 大 量 数据 是 必要 的 。 甚 至 像 “super crunchers” (超级 电脑 ) 这 样 流行 的 科技 书 也 
给 出 了 从 大 量 数据 发 现 和 得 到 直觉 知识 的 非常 好 的 事例 。 每 个 企业 都 从 收集 和 分 析 数 据 中 获 
益 : 医院 可 以 从 患者 记录 中 识别 趋势 和 异常 ， 搜 索引 擎 可 以 进行 更 好 的 秩 评定 和 广告 投放 ， 
环境 和 公共 卫生 部 门 可 以 识别 数据 中 的 模式 和 异常 。 这 样 的 例子 还 有 很 多 ， 如 计算 机 安全 和 
计算 网 络 人 侵 检 测 、 家 用 电器 的 能 源 消耗 、 生 物 信息 学 和 药物 数据 的 模式 分 析 、 财 经 和 商务 
智能 数据 、 识 别 博客 中 的 趋势 、 哪 嘻 (Twitter) 等 ， 不 一 而 足 。 与 数据 传感器 一 样 ， 存 储 设 
备 价格 越 来 越 低 ， 因 此 收集 和 存储 数据 比 以 前 更 加 容易 。 

于 是 ， 问 题 变 成 如 何 分 析 数 据 。 这 恰 是 第 3 版 的 关注 点 。jJiawei、Micheline Jian 的 教 
材 全 景 式 地 讨论 了 数据 挖掘 的 所 有 相关 方法 ， 从 经 典 的 分 类 和 聚 类 主题 ， 到 数据 库 方 法 
(例如 ， 关 联 规则 和 数据 立方 体 )， 到 更 新 和 更 高 级 的 主题 (例如 ，SVD/PCA、 小 波 、 支 持 
向 量 机 )。 

对 于 初学 者 来 说 ， 书 中 的 阐述 极其 容易 理解 ， 对 于 高 端 读者 也 是 如 此 。 本 书 首先 介绍 基 
本 概念 ， 更 高 级 的 内 容 在 随后 的 章节 中 。 书 中 还 使 用 了 一 些 修辞 疑问 ， 这 样 做 非常 有 助 于 吸 
引 读 者 注意 力 。 

我 们 已 经 使 用 前 两 版 作为 卡 内 基 - 梅 隆 大 学 数据 挖掘 课程 的 教材 ， 并 且 准 备 继续 使 用 第 
3 版 。 新 版 内 容 有 显著 增加 : 值得 注意 的 是 ， 超 过 100 篇 引文 引用 2006 年 以 来 的 工作 ， 关 
注 更 近 的 研究 ， 如 图 和 社会 网 络 、 传 感 器 网 络 ， 以 及 离 群 点 检测 。 对 于 可 视 化 ， 本 书 新 增 了 
一 节 ; 离 群 点 检测 扩充 为 一 整 章 ; 而 有 些 章 被 分 开 ， 以 便 介 绍 高 级 方法 。 例 如 ，top- 模式 
等 模式 挖掘 以 及 双 聚 类 和 图 聚 类 。 

总 之 ， 这 是 一 本 关于 经 典 和 现代 数据 挖掘 方法 的 优秀 专著 ， 它 不 仅 是 一 本 理想 的 教材 ， 
而 且 也 是 一 本 理想 的 参考 书 。 


Christos Faloutsos 


卡 内 基 — 梅 隆 大 学 
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我 们 被 数据 〈 科 学 数据 、 医 疗 数据 、 人 口 统计 数据 、 金 融 数据 和 销售 数据 ) 所 淹没 。 
人 们 没有 时 间 查 看 这 些 数据 。 人 们 的 关注 已 经 转 到 可 贵 的 应 付 手 段 上 。 因 此 ， 我 们 必须 找到 
有 效 方法 ， 自 动 地 分 析 数 据 、 自 动 地 对 数据 分 类 、 自 动 地 对 数据 汇总 、 自 动 地 发 现 和 描述 数 
据 中 的 趋势 、 自 动 地 标记 异常 。 这 是 数据 库 研 究 最 活跃 、 最 令 人 激动 的 领域 之 一 。 统 计 学 、 
可 视 化 、 人 工 智能 和 机 器 学 习 方 面 的 研究 人 员 正 在 为 该 领域 做 出 贡献 。 由 于 该 领域 非常 广 
阔 ， 很 难 把 握 它 过 去 几 十 年 的 非凡 进展 。 

六 年 前 ，Jiawei Han 和 Micheline Kamber 的 原创 性 教科 书 将 数据 挖掘 的 内 容 组 织 在 一 起 
并 呈现 给 读者 。 它 预示 了 数据 挖掘 领域 的 创新 黄金 时 代 的 到 来 。 他 们 的 书 的 新 版 反映 了 该 领 
域 的 进展 ,一 半 以 上 的 参考 文献 和 历史 注释 都 涉及 当前 的 研究 。 该 领域 已 经 成 熟 ， 出 现 了 许 
多 新 的 、 改 进 的 算法 ; 该 领域 已 经 拓宽 ， 包 含 了 更 多 数据 类 型 ， 如 流 、 序 列 、 图 、 时 间 序 
列 、 地 理 空 间 、 音 频 、 图 像 和 视频 。 我 们 不 仅 可 以 肯定 这 个 黄金 时 代 尚 未 结束 (BC 
研究 和 商业 兴趣 正在 继续 增长 ) ， 而 且 ， 这 本 数据 挖掘 的 现代 著作 的 面世 是 我 们 所 庆幸 的 。 

本 书 首先 提供 数据 库 和 数据 挖掘 概念 的 简略 介绍 ， 特 别 强调 数据 分 析 。 然 后 ， 逐 章 介绍 
分 类 、 预 测 、 关 联 和 聚 类 等 基础 概念 和 技术 。 这 些 主题 辅 以 实例 ， 对 每 类 问题 均 提 供 代表 性 
算法 ， 并 对 每 种 技术 的 应 用 给 出 注重 实效 的 规则 。 这 种 苏 格 拉 底 式 的 表达 风格 具有 很 好 的 可 
读 性 ， 并 且 内 容 丰 富 。 我 已 通过 阅读 第 1 版 学 到 了 许多 知识 ， 并 且 在 阅读 第 2 版 时 再 次 受益 
并 更 新 了 知识 。 

Jiawei Han 和 Micheline Kamber 在 数据 挖掘 研究 方面 一 直 处 于 领先 地 位 。 这 是 一 本 他 们 
用 于 培养 自己 的 学 生 ， 以 加 快 该 领域 发 展 的 教材 。 该 领域 发 展 非常 迅速 ， 本 书 提供 了 一 条 学 
习 该 领域 基本 思想 和 了 解 该 领域 现状 的 快捷 之 路 。 我 认为 本 书 内 容 丰 富 、 刺 激 ， 相 信 读 者 也 
会 有 同样 的 感触 。 


Jim Cray 
Microsoft Research 


美国 加 利 福 尼 亚 旧 金山 
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社会 的 计算 机 化 显著 地 增强 了 我 们 产生 和 和 收集 数据 的 能 力 。 大 量 数 据 从 我 们 生活 的 每 个 
角落 涌 出 。 存 储 的 或 瞬 态 的 数据 的 爆炸 性 增长 已 激 起 对 新 技术 和 自动 工具 的 需求 ， 以 帮助 我 
们 智能 地 将 海量 数据 转换 成 有 用 的 信息 和 知识 。 这 导致 称 做 数据 挖 握 的 一 个 计算 机 科学 前 沿 
学 科 的 产生 ， 这 是 一 个 充满 希望 和 欣欣 向 荣 并 具有 广泛 应 用 的 学 科 。 数 据 控 气 通常 又 称 为 数 
据 中 的 知识 发 现 〈KDD) ， 是 自动 地 或 方便 地 提取 代表 知识 的 模式 ; 这 些 模式 隐藏 在 大 型 数 
据 库 、 数 据 仓 库 、Web、 其 他 大 量 信息 库 或 数据 流 中 。 

本 书 考察 知识 发 现 和 数据 挖 握 的 基本 概念 和 技术 。 作 为 一 个 多 学 科 领 域 ,数据 挖 所 从 多 
个 学 科 汲 取 营 养 。 这 些 学 科 包括 统计 学 、 机 器 学 习 、 模 式 识别 、 数 据 库 技 术 、 信 息 检 索 、 网 
络 科学 、 知 识 库 系统 、 人 工 智 能 、 高 性 能 计算 和 数据 可 视 化。 我 们 提供 发 现 隐藏 在 大 型 数据 
集中 的 模式 的 技术 ， 关 注 可 行 性 、 有 用 性、 有 效 性 和 可 伸缩 性 问题 。 因 此 ， 本 书 不 打算 作为 
数据 库 系 统 、 机 器 学 习 、 统 计 学 或 其 他 某 领 域 的 导论 ， 尽 管 我 们 确实 提供 了 这 些 领 域 的 必要 
背景 材料 ， 以 便 读者 理解 它们 各 自在 数据 挖 扬中 的 作用 。 本 书 是 对 数据 挖掘 的 全 面 介绍 。 对 
于 计算 科学 的 学 生 、 应 用 开发 人 员 、 行 业 专 业 人 员 以 及 涉及 以 上 列举 的 学 科 的 研究 人 员 ， 本 
书 应 当 是 有 用 的 。 

数据 挖掘 出 现 于 20 世纪 80 年 代 后 期 ，20 世纪 90 年 代 有 了 突飞猛进 的 发 展 ， 并 可 望 在 
新 二 年 继续 繁荣 。 本 书 全 面 展 示 该 领域 ,介绍 有 趣 的 数据 挖 扬 技术 和 系统 ， 并 讨论 数据 挖掘 
的 应 用 和 研究 方向 。 写 本 书 的 重要 动机 是 需要 建立 一 个 学 习 数 据 挖掘 的 有 组 织 的 框架 一 一 由 
于 这 个 快速 发 展 领域 的 多 学 科 特 点 ， 这 是 一 项 具有 挑战 性 的 任务 。 我 们 希望 本 书 有 助 于 具有 
不 同 背 景 和 经 验 的 人 交换 关于 数据 挖掘 的 见解 ， 为 进一步 促进 这 个 令 人 激动 的 、 不 断 发 展 的 
领域 的 成 长 做 出 贡献 。 


本 书 的 组 织 

自 本 书 第 1 版、 第 2 版 出 版 以 来 ， 数 据 挖掘 领域 已 经 取得 了 重大 进展 ， 开 发 出 了 许多 新 
的 数据 挖掘 方法 、 系 统 和 应 用 ， 特 别 是 对 于 处 理 包 括 信 息 网 络 、 图 、 复 杂 结 构 和 数据 流 ， 以 
及 文本 、Web 、 多 媒体 、 时 间 序 列 、 时 间 空 间 数据 在 内 的 新 的 数据 类 型 。 这 种 快速 发 展 、 新 
技术 不 断 涌现 使 得 在 一 本 书 中 涵盖 整个 领域 的 广泛 内 容 非 常 困难 。 因 此 ， 我 们 决定 与 其 继续 
扩大 本 书 的 涵盖 面 ， 还 不 如 让 本 书 以 足够 的 广度 和 深度 涵盖 该 领域 的 核心 内 容 ， 而 把 复杂 数 
据 类 型 的 处 理 留 给 另 一 本 即将 面世 的 书 。 

第 3 版 对 本 书 的 前 两 版 做 了 全 面 修订 ， 加 强 和 重新 组 织 了 全 书 的 技术 内 容 ， 显 著 地 扩充 
和 加 强 处 理 一 般 数据 类 型 挖掘 的 核心 技术 。 第 2 版 中 讨论 特定 主题 的 章节 (例如 ， 数 据 预 处 
理 、 频 繁 模式 挖掘、 分 类 和 聚 类 ) 在 这 一 版 都 被 扩充 ， 每 章 都 分 成 两 章 。 对 于 这 些 主 题 ， 
一 章 囊 括 基 本 概念 和 技术 ， 而 另 一 章 提 供 高 级 概念 和 方法 。 

第 2 版 关于 复杂 数据 类 型 的 章节 (例如 ， 流 数据 、 序 列 数据 、 图 结构 数据 、 社 会 网 络 数 
据 和 多 重 关 系数 据 ， 以 及 文本 、Web 、 多 媒体 和 时 间 空 间 数据 ) 现在 保留 给 专门 介绍 数据 挖 
握 的 高 级 课题 的 新 书 。 为 了 支持 读者 学 习 这 些 高 级 课题 ， 我 们 把 第 2 版 的 相关 章节 的 电子 版 
放 在 本 书 的 网 站 上 ， 作 为 第 3 版 的 配套 材料 。 

第 3 版 各 章 的 简要 内 容 如 下 〈 重 点 介绍 新 的 内 容 ) : 
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第 1 章 提供 关于 数据 挖掘 的 多 学 科 领 域 的 导论 。 该 章 讨 论 导 致 需要 数据 挖掘 的 数据 库 技 
术 的 发 展 历程 和 数据 挖掘 应 用 的 重要 性 。 该 章 考察 挖 据 的 数据 类 型 ， 包 括 关系 的 、 事 务 的 和 
数据 仓库 数据 ， 以 及 复杂 的 数据 类 型 ， 如 时 间 序 列 、 序 列 、 数 据 流 、 时 间 空 间 数据 、 多 媒体 
数据 、 文 本 数据 、 图 、 社 会 网 络 和 Web 数据 。 该 章 根据 所 挖掘 的 知识 类 型 、 所 使 用 的 技术 
以 及 目标 应 用 的 类 型 ， 对 数据 挖掘 任务 进行 了 一 般 分 类 。 最 后 讨论 该 领域 的 主要 挑战 。 

第 2 章 介 绍 一 般 数 据 特征 。 该 章 首先 讨论 数据 对 象 和 属性 类 型 ， 然 后 介绍 基本 统计 数据 
描述 的 典型 度量 。 该 章 概述 各 种 类 型 数据 的 数据 可 视 化 技术 。 除 了 数值 数据 的 可 视 化 方法 
外 ， 还 介绍 文本 、 标 签 、 图 和 多 维 数据 的 可 视 化 方法 。 第 2 章 还 介绍 度量 各 种 类 型 数据 的 相 
似 性 和 相 异 性 的 方法 。 

第 3 章 介 绍 数据 预 处 理 技术 。 该 章 首 先 介 绍 数据 质量 的 概念 ， 然 后 讨论 数据 清理 、 数 据 
集成 、 数 据 归 约 、 数 据 变换 和 数据 离散 化 的 方法 。 

第 4 章 和 第 5 章 是 数据 仓库 、0LAP (联机 分 析 处 理 ) 和 数据 立方 体 技术 的 引 论 。 第 4 
章 介绍 数据 仓库 和 OLAP 的 基本 概念 、 建 模 、 结 构 、 一 般 实现 ， 以 及 数据 仓库 和 其 他 数据 泛 
化 的 关系 。 第 5 章 更 深入 地 考察 数据 立方 体 技术 ， 详 细 地 研究 数据 立方 体 的 计算 方法 ,包括 
Star- Cubing 和 高 维 OLAP 方法 。 该 章 还 讨论 数据 立方 体 和 OLAP 技术 的 进一步 研究 ， 如 抽样 
立方 体 、 排 序 立方 体 、 预 测 立 方 体 、 用 于 复杂 数据 挖掘 查询 的 多 特征 立方 体 和 发 现 驱动 的 数 
据 立 方 体 的 探查 。 

第 6 章 和 第 7 章 介 绍 挖 所 大 型 数据 集中 的 频繁 模式 、 关 联 和 相关 性 的 方法 。 第 6 章 介绍 
基本 概念 ， 如 购物 篮 分 析 ， 还 有 条 理 地 提供 了 许多 频繁 项 集 挖 气 技 术 。 这 些 涵盖 从 基本 
Aprior 算法 和 它 的 变形 ， 到 改进 性 能 的 更 高 级 的 方法 ， 包 括 频繁 模式 增长 方法 ， 使 用 数据 
的 垂直 形式 的 频繁 模式 挖掘， 挖掘 闭 频繁 项 集 和 极 大 频繁 项 集 。 该 章 还 讨论 模式 评估 方法 并 
介绍 控 据 相关 模式 的 度量 。 第 7 章 介 绍 高 级 模式 挖掘 方法 。 该 章 讨论 多 层 和 多 维 空间 中 的 模 
式 控 气 ， 挖 掘 稀有 和 负 模 式 ， 挖 气 巨 型 模式 和 高 维 空间 数据 ， 基 于 约束 的 模式 挖掘 和 挖 据 压 
缩 或 近似 模式 。 该 章 还 介绍 模式 探查 和 应 用 的 方法 ， 包 括 频繁 模式 的 语义 注解 。 

第 8 章 和 第 9 章 介绍 数据 分 类 方法 。 由 于 分 类 方法 的 重要 性 和 多 样 性 ， 内 容 被 划分 成 两 
章 。 第 8 章 介 绍 分 类 的 基本 概念 和 方法 ， 包 括 决 策 树 归纳 、 贝 叶 斯 分 类 和 基于 规则 的 分 类 。 
该 章 还 讨论 模型 评估 和 选择 方法 ， 以 及 提高 分 类 准确 率 的 方法 ， 包 括 组 合 方法 和 处 理 不 平衡 
数据 。 第 9 章 讨论 分 类 的 高 级 方法 ， 包 括 贝 叶 斯 信念 网 络 、 后 向 传播 的 神经 网 络 技术 、 支 持 
向 量 机 、 使 用 频繁 模式 的 分 类 、 三 最 邻近 分 类 、 基 于 案例 的 推理 、 遗 传 算法 、 粗 糙 集 理论 和 
模糊 集 方 法 。 附 加 的 主题 包括 多 类 分 类 、 半 监督 分 类 、 主 动 学 习 和 迁移 学 习 。 

聚 类 分 析 是 第 10 章 和 第 11 章 的 主题 。 第 10 章 介 绍 数据 聚 类 的 基本 概念 和 方法 ， 包 括 
基本 聚 类 分 析 方 法 的 概述 、 划 分 方法 、 层 次 方法 、 基 于 密度 的 方法 和 基于 网 格 的 方法 。 该 章 
还 介绍 聚 类 评估 方法 。 第 11 章 讨论 聚 类 的 高 级 方法 ， 包 括 基于 概率 模型 的 聚 类 、 聚 类 高 维 
数据 、 聚 类 图 和 网 络 数据 ， 以 及 基于 约束 的 聚 类 。 

第 12 章 专门 讨论 离 群 点 检测 。 本 章 介绍 离 群 点 的 基本 概念 和 离 群 点 分 析 ， 并 从 各 种 监 
督 力度 〈 监 督 的 、 半 监督 的 和 无 监督 的 ) 以 及 方法 角度 (统计 学 方法 、 基 于 邻近 性 的 方法 、 
基于 聚 类 的 方法 和 基于 分 类 的 方法 ) 讨论 离 群 点 检测 方法 。 该 章 还 讨论 挖掘 情境 离 群 点 和 
集体 离 群 点 ， 以 及 高 维 数据 中 的 离 群 点 检测 。 

最 后 ， 在 第 13 章 我 们 讨论 数据 挖掘 的 趋势 、 应 用 和 研究 前 沿 。 我 们 简略 地 介绍 控 据 复 
杂 数 据 类 型 ， 包 括 挖 据 序 列 数据 〈 例 如 ， 时 间 序 列 、 符 号 序列 和 生物 学 序列 ) ， 挖 掘 图 和 网 
络 ， 以 及 控 据 空间 、 多 媒体 、 文 本 和 Web 数据 。 这 些 数据 挖掘 方法 的 深入 讨论 留 给 正在 扎 
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写 的 数据 挖掘 高 级 课题 一 书 。 然 后 ， 该 章 转 向 讨论 其 他 数据 挖掘 方法 学 ， 包 括 统计 学 数据 挖 
拨 、 数 据 挖 所 基础 、 可 视 和 听觉 数据 挖掘 ， 以 及 数据 挖 拨 的 应 用 。 讨 论 数 据 挖 据 在 金融 数据 
分 析 、 零 信和 电信 产业 、 科 学 与 工程 ， 以 及 入 侵 检测 和 预防 方面 的 应 用 。 该 章 还 讨论 数据 挖 
所 与 推荐 系统 的 联系 。 由 于 数据 挖掘 出 现在 我 们 日 常生 活 的 方方面面 ， 所 以 我 们 讨论 数据 控 
掘 与 社会 ， 包 括 无 处 不 在 和 无 形 的 数据 挖掘 ， 以 及 隐私 、 安 全 和 数据 挖 所 对 社会 的 影响 。 我 
们 用 考察 数据 挖掘 的 发 展 趋势 结束 本 书 。 

书 中 楷体 字 用 于 强调 定义 的 术语 ， 而 黑体 字 用 于 突出 主要 思想 。 

本 书 与 其 他 数据 挖掘 教材 相 比 具有 一 些 显著 特点 : 它 广泛 、 深 入 地 讨论 了 数据 挖掘 原 
理 。 各 章 尽 可 能 是 自 包 含 的 ， 使 得 读者 可 以 按 自己 感 兴趣 的 次 序 阅 读 。 高 级 章节 提供 了 更 大 
的 视野 ， 感 兴趣 的 读者 可 以 选读 。 本 书 提供 了 数据 控 据 的 所 有 主要 方法 ， 还 提供 了 关于 多 维 
OLAP 分 析 等 数据 挖掘 的 重要 主题 ， 这 些 主题 在 其 他 书 中 常常 被 忽略 或 很 少 提 及 。 本 书 还 维 
护 了 一 个 网 站 ， 其 中 包含 大 量 在 线 资源 ， 为 教师 、 学 生 和 该 领域 的 专业 人 员 提 供 支 持 。 这 些 
将 在 下 面 介绍 。 


致 教师 

本 书 旨 在 提供 数据 控 掘 领域 的 一 个 广泛 而 深入 的 概览 ， 可 以 作为 高 年 级 本 科 生 或 一 年 级 
研究 生 的 数据 挖掘 导论 。 除 了 讲稿 、 教 师 指 南 和 阅读 材料 列表 等 教学 资源 之 外 ， 本 书 网 站 
(www. cs. uiuc. edu/ ~ hanj/bk3 或 www. booksite. mkp. com/datamining3e ) 还 提供 了 一 个 样本 课 
程 安排 。 

根据 授课 学 时 、 学 生 的 背景 和 你 的 兴趣 ， 你 可 以 选取 章节 的 子 集 ， 以 不 同 的 顺序 进行 讲 
授 。 例 如 ， 如 果 你 只 打算 给 学 生 讲 授 数 据 挖 据 入门 导论 ， 可 以 按照 图 P. 1 的 建议 。 注 意 ， 根 
据 需 要 ， 必 要 时 可 以 省 略 其 中 某 些 节 或 某 些 小 节 。 


第 10 章 
RAD: 基 


本 概念 和 方法 





图 P.1 入 门 导论 课程 的 建议 章节 序列 


根据 学 时 和 讲授 范围 ， 你 可 以 有 选择 地 把 更 多 的 章节 增加 到 这 个 基本 序列 中 。 例 如 ， 对 
高 级 分 类 方法 更 感 兴趣 的 教师 可 以 首先 增加 “第 9 章 分 类 : 高 级 方法 ”; 对 模式 挖掘 更 感 
兴趣 的 教师 可 以 选择 包括 “第 7 章 高 级 模式 挖掘 "; 而 对 OLAP 和 数据 立方 体 技术 感 兴趣 
的 教师 可 以 增加 “第 4 章 ”数据 仓库 与 联机 分 析 处 理 ” 和 “第 5 章 ”数据 立方 体 技术 ”。 

或 者 ， 你 可 以 选择 在 两 个 学 期 的 系列 课程 中 讲授 整 本 书 ， 包 括 本 书 的 所 有 章节 ， 时 间 人 多 
许 的 话 ， 加 上 图 和 网 络 挖掘 这 样 的 高 级 课题 。 这 些 高 级 课题 可 以 从 本 书 网 站 提供 的 配套 材料 
选择 ， 辅 以 挑选 的 研究 论文 。 

本 书 的 每 一 章 都 可 以 用 做 自学 材料 ， 或 者 用 做 数据 库 系统 、 机 器 学 习 、 模 式 识别 和 数据 
智能 分 析 等 相关 课程 的 专题 。 

每 章 后 面 都 有 一 些 习 题 ， 适 合作 为 家 庭 作 业 。 这 些 习题 或 者 是 用 于 测验 对 内 容 的 掌握 情 
况 的 小 问题 ,或 者 是 需要 分 析 思 考 的 大 问题 ,或 者 是 实现 设计 。 有 些 习 题 也 可 以 用 做 研究 讨 
论 课题 。 每 章 后 面 的 文献 注释 可 以 用 来 查找 包含 正文 中 提供 的 概念 和 方法 的 来 源 、 相 关 课 题 
的 深入 讨论 和 可 能 的 扩展 的 研究 文献 。 


致 学 生 
我 们 希望 本 书 将 激发 你 对 年 青 ， 但 正在 快速 发 展 的 数据 挖掘 领域 的 兴趣 。 我 们 试图 以 清 
晰 的 方式 提供 材料 ， 仔 细 地 解释 所 涵盖 的 主题 。 每 一 章 后 面 都 附 有 一 个 小 结 ， 总 结 要 点 。 全 
书包 含 了 许多 图 和 解释 ， 以 便 使 本 书 更 加 有 趣 和 便于 阅读 。 尽 管 本 书 是 作为 教材 编写 的 ， 但 
是 我 们 也 试图 把 它 组织 成 一 本 有 用 的 参考 书 或 手册 ， 以 有 助 于 你 今后 在 数据 挖掘 方面 进行 深 
入 研究 和 求职 。 
为 阅读 本 书 ， 你 需要 知道 什么 ? 
。 你 应 当 具 有 关于 统计 学 、 数 据 库 系 统 和 机 器 学 习 的 概念 和 术语 方面 的 知识 。 然 而 ， 
我 们 尽力 提供 这 些 基 础 知识 的 足够 背景 ， 以 便 在 读者 对 这 些 领 域 不 太 熟 悉 或 者 记忆 
有 些 淡忘 时 ， 也 能 够 理解 本 书 的 讨论 。 
。 你 应 当 具 有 一 些 程序 设计 经 验 。 特 别 是 你 应 当 能 够 阅读 伪 代 码 ， 能 够 理解 像 多 维 数 
组 这 样 的 简单 数据 结构 


致 专业 人 员 

本 书 旧 在 涵盖 数据 挖 气 领 域 的 广泛 主题 。 因 此 ， 本 书 是 关于 该 主题 的 一 本 优秀 手册 。 由 
于 每 一 章 的 编写 都 尽 可 能 独立 ， 所 以 读者 可 以 关注 自己 最 感 兴趣 的 课题 。 希 望 学 习 数据 挖 所 
关键 思想 的 应 用 程序 员 和 信息 服务 管理 人 员 可 以 使 用 本 书 。 对 于 有 兴趣 使 用 数据 控 据 技术 解 
决 其 业务 问题 的 银行 、 保 险 、 医 药 和 零售 业 的 数据 分 析 人 员 ， 本 书 也 是 有 用 的 。 此 外 ， 本 书 
也 可 以 作为 数据 挖 所 领域 的 全 面 综述 ， 有 助 于 研究 人 员 提 升 数据 控 气 技巧， 扩展 数据 控 据 的 
应 用 范围 。 

本 书 所 提供 的 技术 和 算法 是 实用 的 ， 介 绍 的 算法 适合 于 发 现 隐藏 在 大 型 、 现 实数 据 集中 
的 模式 和 知识 ， 而 不 是 挑选 在 小 型 “玩具 ”数据 库 上 运行 良好 的 算法 。 本 书 提供 的 每 个 算 
法 都 用 伪 代 码 解释 。 伪 代码 类 似 于 程序 设计 语言 C， 但 也 精心 加 以 策划 ， 使 得 不 熟悉 C 或 
C ++ 的 程序 员 易于 理解 。 如 果 你 想 实 现 算法 ， 你 会 发 现 将 我 们 的 伪 代 码 转换 成 选 定 的 程序 
设计 语言 程序 是 一 项 非常 简单 的 任务 。 


本 书 资源 网 站 
本 书 网 站 的 地 址 是 www. cs. uiue. edu/ ~ hanj/bk3， 另 一 个 是 Morgan Kaufmann 出 版 社 的 网 
站 www. booksite. mkp. com/datamining3e o 这 些 网 站 为 本 书 的 读者 和 对 数据 挖掘 感 兴 趣 的 人 提 
供 了 一 些 附 加 材料 ， 资 源 包括 : 
。 每 章 的 幻灯 片 。 提 供 了 用 微软 的 PowerPoint 制作 的 每 章 教 案 。 
。 高 级 数据 挖掘 的 配套 章节 。 本 书 第 2 版 的 第 8 ~ 10 章 涵盖 了 挖掘 复 杂 的 数据 类 型 ， 
这 超出 了 本 书 的 主题 ， 对 这 些 高 级 主题 感 兴 趣 的 读者 可 从 网 站 上 获取 。 
教师 手册 。 本 书 习题 的 完整 答案 通过 出 版 社 的 网 站 只 向 教师 提供 。 
。 课程 提纲 和 教学 计划 。 PEIRA 书 和 幻灯 片 必 于 数据 榨 括 导论 课程 和 高 级 教程 的 本 科 
生 和 研究 生 ， 可 以 获取 这 些 资源 。 
。 带 超 链接 的 辅助 阅读 文献 列表 。 补 充 读物 的 原创 性 文章 按 章 组 织 。 
。 到 数据 挖掘 数据 集 和 软件 的 链接 。 我 们 将 提供 到 数据 挖掘 数据 集 和 某 些 包含 有 趣 的 
数据 挖掘 软件 包 的 站 点 的 链接 ， 如 到 伊利 诺 伊 大 学 厄 巴 纳 - 尚 佩 恩 分 校 IliMine 的 
链接 (http; //illimine. cs. uiuc. edu) 。 


。 作业 、 考 试 和 课程 设计 样本 。 一 组 作业 、 考 试 和 课程 设计 样本 将 在 出 版 社 的 网 站 上 
向 教师 提供 。 

。 本 书 的 插图 。 这 可 能 有 助 于 你 制作 自己 的 课堂 教学 幻灯 片 。 

。 本 书目 录 。PDF 格式 。 

。 本 书 不 同 印 次 的 勘误 表 。 欢 迎 读者 指出 本 书 中 的 错误 。 一 旦 错误 被 证 实 ， 我 们 将 更 
新 勘误 表 ， 并 对 你 的 贡献 致谢 。 

评论 或 建议 请 发 往 harj@ cs. uiuc. edu。 我 们 很 高 兴 听 到 你 的 建议 。 


| 致 谢 
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第 3 版 致谢 

我 们 向 UIUC 数据 挖 据 小 组 以 前 和 现在 的 所 有 成 员 、 伊 利 诺 伊 大 学 厄 巴 纳 - 尚 佩 恩 分 校 
计算 机 科学 系 的 数据 与 信息 系统 实验 室 (DAS) 的 教师 和 学 生 以 及 许多 朋友 和 同事 表达 我 
们 的 诚挚 谢意 ， 他 们 始终 不 渝 的 支持 使 得 我 们 在 这 一 版 的 工作 中 受益 匪 浅 。 我 们 还 希望 感谢 
UIUC 2010—2011 学 年 CS412 和 CS512 课程 的 学 生 ， 他 们 仔细 地 通读 了 本 书 的 初稿 ， 找 出 了 
许多 错误 ， 提 出 了 各 种 改进 意见 。 

我 们 还 希望 感谢 Morgan Kaufmann 出 版 社 的 发 行人 David Bevans 和 Rick Adams， 感 谢 他 
们 在 我 们 写作 本 书 时 所 表现 出 的 热情 、 耐 心 和 支持 。 我 们 感激 该 书 的 项 目 经 理 Marilyn Rash 
和 她 的 团队 ， 他 们 使 得 我 们 按期 完稿 。 . 

我 们 对 所 有 的 评论 者 不 胜 感激 ， 感 谢 他 们 的 无 价 反馈 。 此 外 ， 我 们 感谢 美国 国家 科学 基 
金 会 、NASA 、 美 国 空军 科学 研究 办 公 室 、 美 国 军事 研究 实验 室 、 加 拿 大 自然 科学 与 工程 研 
究 委员 会 (NSERC), UK IBM 研究 院 、 微 软 研 究 院 、Google、 雅 虎 研究 院 、 波 音 、HP X 
验 室 和 其 他 业界 实验 室 ， 感谢 他 们 在 研究 基金 、 合 同和 赠 予 方面 对 我 们 的 研究 的 支持 。 这 些 
研究 加 深 了 我 们 对 本 书 所 讨论 课题 的 理解 。 最 后 ， 我 们 感谢 我 们 的 家 人 ， 感 谢 他 们 对 该 项 目 
的 全 身心 支持 。 


第 2 版 致谢 

我 们 向 UIUC 数据 挖掘 小 组 以 前 和 现在 的 所 有 成 员 、 伊 利 诺 伊 大 学 厄 巴 纳 - 尚 佩 恩 分 校 
计算 机 科学 系 的 数据 与 信息 系统 实验 室 (DAIS) 的 教师 和 学 生 以 及 许多 朋友 和 同事 表示 感 
谢 ， 他 们 始终 不 渝 的 支持 使 得 我 们 在 第 2 版 的 工作 中 受益 虑 浅 。 这 些 人 包括 : Gul Agha, 
Rakesh Agrawal, Loretta Auvil, Peter Bajcsy, Geneva Belford, Deng Cai, Y. Dora Cai, Roy 
Cambell, Kevin C.-C. Chang, Surajit Chaudhuri, Chen Chen, Yixin Chen, Yuguo Chen, Hong 
Cheng, David Cheung, Shengnan Cong, Gerald DeJong, AnHai Doan, Guozhu Dong, Charios 
Ermopoulos, Martin Ester, Christos Faloutsos, Wei Fan, Jack C. Feng, Ada Fu, Michael Gar- 
land, Johannes Gehrke, Hector Gonzalez, Mehdi Harandi, Thomas Huang, Wen Jin, Chulyun 
Kim, Sangkyum Kim, Won Kim, Won- Young Kim, David Kuck, Young- Koo Lee, Harris 
Lewin, Xiaolei Li, Yifan Li, Chao Liu, Han Liu, Huan Liu, Hongyan Liu, Lei Liu, Ying Lu, 
Klara Nahrstedt, David Padua, Jian Pei, Lenny Pitt, Daniel Reed, Dan Roth, Bruce Schatz, 
Zheng Shao, Marc Snir, Zhaohui Tang, Bhavani M. Thuraisingham, Josep Torrellas, Peter Tzvet- 
kov, Benjamin W. Wah, Haixun Wang, Jianyong Wang, Ke Wang, Muyuan Wang, Wei Wang, 
Michael Welge, Marianne Winslett, Ouri Wolfson, Andrew Wu, Tianyi Wu, Dong Xin, Xifeng 
Yan, Jiong Yang, Xiaoxin Yin, Hwanjo Yu, Jeffrey X. Yu, Philip S. Yu, Maria Zemankova, 
ChengXiang Zhai, Yuanyuan Zhou, Wei Zou, 

Deng Cai 和 ChengXiang Zhai 对 文本 挖掘 和 Web 挖掘 两 节 ，Xifeng Yan 对 图 挖掘 一 节 ， 
Xiaoxin Yin 对 多 重 关 系 挖 据 一 节 做 出 了 贡献 。Hong Cheng, Charios Ermopoulos, Hector 
Gonzalez, David J. Hill, Chulyun Kim, Sangkyum Kim, Chao Liu, Hongyan Liu, Kasif 


M 


Manzoor, Tianyi Wu, Xifeng Yan, Xiaoxin Yin 校 阅 了 手稿 的 部 分 章节 。 

我 们 还 希望 感谢 Morgan Kaufmann 出 版 社 的 发 行人 Diane Cerra， 感 谢 她 在 本 书写 作 期 间 
的 热情 、 耐 心 和 支持 。 我 们 感激 该 书 的 项 目 经 理 Alan Rose， 感 谢 他 不 知 疲倦 和 及 时 地 与 我 
们 联系 ， 安 排出 版 过 程 的 每 个 细节 。 我 们 对 所 有 的 评论 者 不 胜 感激 ， 感 谢 他 们 的 无 价 反馈 。 
最 后 ， 我 们 感谢 我 们 的 家 人 ， 感 谢 他 们 对 该 项 目的 全 身心 支持 。 


第 1 版 致谢 

我 们 希望 向 曾经 或 正 与 我 们 一 道 从 事 数据 控 据 相关 研究 和 DBMiner 项 目 ， 或 者 在 数据 控 
据 方面 向 我 们 提供 各 种 支持 的 所 有 人 表示 豆 心 感谢 。 这 些 人 包括 : Rakesh Agrawal, Stella 
Atkins, Yvan Bedard, Binay Bhattacharya, ( Yandong) Dora Cai, Nick Cercone, Surajit 
Chaudhuri, Sonny H. S. Chee, Jianping Chen, Ming- Syan Chen, Qing Chen, Qiming Chen, 
Shan Cheng, David Cheung, Shi Cong, Son Dao, Umeshwar Dayal, James Delgrande, Guozhu 
Dong, Carole Edwards, Max Egenhofer, Martin Ester, Usama Fayyad, Ling Feng, Ada Fu, 
Yongjian Fu, Daphne Gelbart, Randy Goebel, Jim Gray, Robert Grossman, Wan Gong, Yike 
Guo, Eli Hagen, Howard Hamilton, Jing He, Larry Henschen, Jean Hou, Mei-Chun Hsu, Kan 
Hu, Haiming Huang, Yue Huang, Julia Itskevitch, Wen Jin, Tiko Kameda, Hiroyuki Kawano, 
Rizwan Kheraj, Eddie Kim, Won Kim, Krzysztof Koperski, Hans-Peter Kriegel, Vipin Kumar, 
Laks V. S. Lakshmanan, Joyce Man Lam, James Lau, Deyi Li, George (Wenmin) Li, Jin Li, 
Ze- Nian Li, Nancy Liao, Gang Liu, Junqiang Liu, Ling Liu, Alan (Yijun) Lu, Hongjun Lu, 
Tong Lu, Wei Lu, Xuebin Lu, Wo-Shun Luk, Heikki Mannila, Runying Mao, Abhay Mehta, 
Gabor Melli, Alberto Mendelzon, Tim Merrett, Harvey Miller, Drew Miners, Behzad Mortazavi- 
Asl, Richard Muntz, Raymond T. Ng, Vicent Ng, Shojiro Nishio, Beng-Chin Ooi, Tamer Ozsu, 
Jian Pei, Gregory Piatetsky- Shapiro, Helen Pinto, Fred Popowich, Amynmohamed Rajan, Peter 
Scheuermann, Shashi Shekhar, Wei- Min Shen, Avi Silberschatz, Evangelos Simoudis, Nebojsa 
Stefanovic, Yin Jenny Tam, Simon Tang, Zhachui Tang, Dick Tsur, Anthony K. H. Tung, Ke 
Wang, Wei Wang, Zhaoxia Wang, Tony Wind, Lara Winstone, Ju Wu, Betty (Bin) Xia, 
Cindy M. Xin, Xiaowei Xu, Qiang Yang, Yiwen Yin, Clement Yu, Jeffrey Yu, Philip S. Yu, 
Osmar R. Zaiane, Carlo Zaniolo, Shuhua Zhang, Zhong Zhang, Yvonne Zheng, Xiaofang Zhou, 
Hua Zhu, 

我 们 还 要 感谢 Jean Hou, Helen Pinto, Lara Winstone, Hua Zhu， 感 谢 他 们 帮助 绘制 本 书 
的 一 些 草图 ; 感谢 Eugene Belchev， 感 谢 他 小 心地 校对 了 每 一 章 。 

我 们 还 希望 感谢 Morgan Kaufmann 出 版 社 的 执行 总 编辑 Diane Cerra， 感 谢 她 在 本 书写 作 
期 间 的 热情 、 耐 心 和 支持 ; 感谢 本 书 的 责任 印 制 Howard Severson 和 他 的 同事 ,感谢 他 们 尽 
职 尽责 的 努力 ， 使 本 书 顺利 出 版 。 我 们 对 所 有 的 评论 者 不 胜 感激 ， 感 谢 他 们 的 无 价 反馈 。 最 
后 ， 我 们 感谢 我 们 的 家 人 ， 感 谢 他 们 对 该 项 目的 全 身心 支持 。 
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Data Mining; Concepts and Techniques, Third Edition 


引 论 





本 书 是 一 个 导论 ， 介 绍 一 个 年 青 并 且 快 速成 长 的 领域 一 一 数据 挖掘 (又 称 从 数据 中 发 
现 知识 ， 简 称 KDD) 。 本 书 关注 从 各 种 各 样 的 应 用 数据 中 发 现 有 趣 数据 模式 的 数据 挖掘 基本 
概念 和 技术 ， 特 别 是 那些 开发 有 效 的、 可 伸缩 的 数据 挖掘 工具 的 卓越 技术 。 

本 章 组 织 如 下 : 在 1.1 节 ， 我 们 将 学 习 为 什么 需要 数据 挖 气 和 数据 挖掘 如 何 成 为 信息 技 
术 自 然 进化 的 一 部 分 。1.2 节 从 知识 发 现 过 程 定 义 数据 挖掘 。 之 后 ， 我 们 将 从 各 种 角度 学 习 
数据 挖掘 ， 如 可 供 挖掘 的 数据 (1.3 节 ) ， 可 以 发 现 的 模式 (1.4 节 ) ， 所 使 用 的 技术 (1.5 
节 )， 以 及 应 用 (1.6 节 )。 这 样 ， 你 将 获得 数据 挖 扬 的 多 维 视图 。 最 后 ，1.7 节 概 述 数据 挖 
掘 研究 和 发 展 的 主要 问题 。 


1. 1 为 什么 进行 数据 挖掘 
需要 是 发 明之 母 。 一 一 柏拉图 
我 们 生活 在 大 量 数据 日 积 月 累 的 年 代 。 分 析 这 些 数据 是 一 种 重要 需求 。1. 1. 1 节 考 察 数 
据 挖 掘 如 何 通过 提供 从 数据 中 发 现 知识 的 工具 来 满足 这 种 需求 。 在 1. 1. 2 节 ， 我 们 观察 数据 
挖掘 为 何 被 视 为 信息 技术 的 自然 进化 的 结果 。 


1.1.1 BARENE 

一 种 流行 的 说 法 是 “我 们 生活 在 信息 时 代 "。 然 而 ， 实 际 上 我 们 生活 在 数据 时 代 。 每 
天 ， 来 自 商 业 、 社 会 、 科 学 和 工程 、 医 学 以 及 我 们 日 常生 活 的 方方面面 的 数 兆 兆 字 节 
(Tera-Byte, TB) 或 数 千 兆 兆 字 节 (Peta- Byte, PB)° 的 数据 注入 我 们 的 计算 机 网 络 、 万 维 
网 (WWW) 和 各 种 数据 存储 设备 。 可 用 数据 的 爆炸 式 增 长 是 我 们 的 社会 计算 机 化 和 功能 强 
大 的 数据 收集 和 存储 工具 快速 发 展 的 结果 。 世 界 范围 的 商业 活动 产生 了 巨大 的 数据 集 ， 包 括 
销售 事务 、 股 票 交易 记录 、 产 品 描述 、 促 销 、 公 司 利润 和 业绩 以 及 顾客 反馈 。 例 如 ， 像 沃 尔 
玛 这 样 的 大 型 商场 禹 及 世界 各 地 的 数 以 千 计 的 超市 每 周 都 要 处 理 数 亿 交 易 。 科 学 和 工程 实践 
持续 不 断 地 从 遥感 、 过 程 测量 、 科 学 实验 、 系 统 实施 、 工 程 观测 和 环境 监测 中 产生 多 达 数 千 
兆 兆 字 节 的 数据 。 

全 球 主干 通信 网 每 天 传输 数 万 兆 兆 字 节 数据 。 医 疗 保健 业 由 医疗 记录 、 病 人 监护 和 医学 
图 像 产生 大 量 数据 。 搜 索引 擎 支持 的 数 十 亿 次 Web 搜索 每 天 处 理 数 万 兆 兆 字 节 数 据 。 社 团 
和 社会 化 媒体 已 经 成 为 日 趋 重要 的 数据 源 ， 产 生 数 字 图 像 、 视 频 、 网 络 博客 、 网 络 社区 和 形 
形 色色 的 社会 网 络 。 产 生 海 量 数据 的 数据 源 不 胜 枚 举 。 

数据 的 爆炸 式 增长 、 广 泛 可 用 和 巨大 数量 使 得 我 们 的 时 代 成 为 真正 的 数据 时 代 。 急 需 
功能 强大 和 通用 的 工具 ， 以 便 从 这 些 海量 数据 中 发 现 有 价值 的 信息 ， 把 这 些 数据 转化 成 
有 组 织 的 知识 。 这 种 需求 导致 了 数据 挖掘 的 诞生 。 这 个 领域 是 年 青 的 、 动 态 变化 的 、 生 
机 勃勃 的 。 数 据 挖掘 已 经 并 且 将 继续 在 我 们 从 数据 时 代 大 步 跨 和 人 信息 时 代 的 历程 中 做 出 
贡献 。 





© Peta-Byte ( 千 兆 兆 字 节 ) 是 一 种 信息 或 计算 机 存储 单位 ，1PB = 1000TB 〈 兆 兆 字 节 ) =1 000 000GB (FFH). 


例 1.1 数据 挖掘 把 大 型 数据 集 转换 成 知识 。 像 Google 这 样 的 搜索 引擎 每 天 接受 数 亿 次 
查询 。 每 个 查询 都 被 看 做 一 个 事务 ， 用 户 通过 事务 描述 他 们 的 信息 需求 。 随 着 时 间 的 推移 ， 
搜索 引擎 可 以 从 这 些 大 量 的 搜索 查询 中 学 到 什么 样 的 新 颖 的 、 有 用 的 知识 ? 有 趣 的 是 ， 从 众 
多 用 户 查询 中 发 现 的 某 些 模式 能 够 揭示 无 价 的 知识 ， 这 些 知 识 无 法 通过 仅 读 取 个 体 数据 项 得 
到 。 例 如 ，Google 的 Flu Trends (流感 趋势 ) 使 用 特殊 的 搜索 项 作为 流感 活动 的 指示 器 。 它 
发 现 了 搜索 流感 相关 信息 的 人 数 与 实际 具有 流感 症状 的 人 数 之 间 的 紧密 联系 。 当 与 流感 相关 
的 所 有 搜索 都 聚集 在 一 起 时 ， 一 个 模式 就 出 现 了 。 使 用 聚集 的 搜索 数据 ，Google 的 Flu 
Trends 可 以 比 传统 的 系统 早 两 周 对 流感 活动 作出 评估 2。 这 个 例子 表明 ， 数 据 挖掘 如 何 把 大 
型 数据 集 转化 成 知识 ， 帮 助 我 们 应 对 当代 的 全 球 性 挑战 。 E 


1.1.2 数据 挖掘 是 信息 技术 的 进化 


数据 挖掘 可 以 看 做 信息 技术 自然 进化 的 结果 。 数 据 库 和 数据 管理 产业 在 一 些 关键 功能 的 
开发 上 不 断 发 展 〈 见 图 1.1): 数据 收集 和 数据 库 创 建 、 数 据 管 理 (包括 数据 存储 和 检索 、 
数据 库 事务 处 理 ) 和 高 级 数据 分 析 〈 包 括 数 据 仓库 和 数据 挖掘 ) 。 数 据 收集 和 数据 库 创 建 机 
制 的 早期 开发 已 经 成 为 稍 后 数据 存储 和 检索 以 及 查询 和 事务 处 理 的 有 效 机 制 开发 的 必 备 基 
础 。 今 天 ， 大 量 数据 库 系统 提供 查询 和 事务 处 理 已 经 司空 见 惯 。 高 级 数据 分 析 自 然 成 为 下 
一 步 。 

自 20 世纪 60 年 代 以 来 ， 数 据 库 和 信息 技术 已 经 系统 地 从 原始 的 文件 处 理 演变 成 复杂 
的 、 功 能 强大 的 数据 库 系统 。 自 20 世纪 70 ERK, 数据库 系统 的 研究 和 开发 已 经 从 开发 
层次 和 网 状 数据 库 发 展 到 开发 关系 数据 库 系统 (数据 存放 在 关系 表 结 构 中 。 见 1.3. 1 节 )、 
数据 建 模 工具 、 索 引 和 存 取 方 法 。 此 外 ， 用 户 通过 查询 语言 、 用 户 界面 、 查 询 处 理 优 化 和 事 
务 管理 ， 可 以 方便 、 灵 活 地 访问 数据 。 联 机 事务 处 理 ( OLTP) 的 有 效 方法 将 查询 看 做 只 读 
事务 ， 对 于 关系 技术 的 发 展 以 及 把 关系 技术 作为 大 量 数据 的 有 效 存储 、 检 索 和 管理 的 主要 工 
具 做 出 了 重要 贡献 。 

数据 库 管 理 系统 建立 之 后 ， 数 据 库 技术 就 转向 高 级 数据 库 系 统 、 支 持 高 级 数据 分 析 的 数 
据 仓库 和 数据 挖掘 、 基 于 Web 的 数据 库 。 例 如 ， 高 级 数据 库 系统 导致 了 20 世纪 80 年 代 中 
期 以 来 的 研究 高 潮 。 这 些 系统 体现 了 新 的 、 功 能 强大 的 数据 模型 ， 如 扩充 关系 的 、 面 向 对 象 
的 、 对 象 -关系 的 和 演绎 的 模型 。 包 括 空间 的 、 时 间 的 、 多 媒体 的 、 主 动 的 、 流 和 传感器 
的 、 科 学 与 工程 数据 库 、 知 识 库 、 办 公信 息 库 在 内 的 面向 应 用 的 数据 库 系 统 百花 齐 放 。 数 据 
的 分 布 、 多 样 性 和 共享 问题 被 广泛 研究 。 

高 级 数据 分 析 源 于 20 世纪 80 年 代 后 期 。 在 过 去 的 30 年 中 ,计算机 硬件 的 稳步 、 令 
人 眼花 综 乱 的 进步 ， 导 致 了 功能 强大 和 价格 可 以 接受 的 计算 机 、 数 据 收集 设备 和 存储 介 
质 的 大 量 供应 。 这 些 技 术 大 大 推动 了 数据 库 和 信息 产业 的 发 展 ， 使 得 大 量 数据 库 和 信息 
存储 库 用 于 事务 管理 、 信 息 检索 和 数据 分 析 。 现 在 ， 数 据 可 以 存放 在 不 同类 型 的 数据 库 
和 信息 存储 库 中 。 

最 近 出 现 的 一 种 数据 存储 结构 是 数据 仓库 (1. 3.2 节 )。 这 是 一 种 多 个 异 构 数 据 源 在 单 
个 站 点 以 统一 的 模式 组 织 的 存储 ， 以 支持 管理 决策 。 数 据 仓库 技术 包括 数据 清理 、 数 据 集成 
和 联机 分 析 处 理 (OLAP), OLAP 是 一 种 分 析 技 术 ， 共 有 汇总 、 合 并 和 聚集 以 及 从 不 同 的 角 
度 观 察 信息 的 能 力 。 尽 管 OLAP 工具 支持 多 维 分 析 和 决策 ， 但 是 对 于 深层 次 的 分 析 ， 仍 然 需 





© 这 在 [GMP +09] 中 报告 。 
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要 其 他 分 析 工 具 ， 如 提供 数据 分 类 、 聚 类 、 离 群 点 /异常 检测 和 刻画 数据 随时 间 变 化 等 特征 
的 数据 挖掘 工具 。 


es Sn 








© 原始 文件 处 理 


— 


数据 收集 和 数据 库 创建 
( 20 世纪 60 年 代 或 更 早 ) 


Jj 
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@ 联机 事务 处 理 


数据 库 管理 系统 

(20 世 纪 70 年 代 一 80 年 代 初 期 ) 
@ 层次 和 网 状 数据 库 系统 
@ 关系 数据 库 系统 
o 数据 建 模 : 实体 -联系 模型 等 
© 索引 和 存 取 方 法 
© 查询 语言 : SQL 等 
@ 用 户 界面 、 表 单 、 报 表 
o 查询 处 理 与 优化 
@ 事务 、 并 发 控制 和 恢复 








I 





高 级 数据 库 系统 
(20 世 纪 80 年 代 中 期 一 现在 ) 

高 级 数据 模型 : 扩充 关系 的 、 对 象 -关系 的 、 
演绎 的 等 
管理 复杂 的 数据 : 空间 的 、 时 间 的 、 多 媒体 
的 、 序 列 的 和 结构 化 的 、 科 学 的 、 工 程 的 、 
移动 对 象 的 等 
数据 流 和 物 联网 数据 系统 
基于 Web 的 数据 库 (XML、 语 义 Web) 
管理 不 确定 数据 和 数据 清理 
异 构 源 的 集成 
文本 数据 库 系 统 以 及 与 信息 检索 的 集成 
非常 大 的 数据 的 管理 
数据 库 调 整 和 自 适 应 系统 
高 级 查询 : Hehe skyline% 
云 计 算 与 并 行 数据 处 理 
数据 隐私 和 安全 问题 








t 





高 级 数据 分 析 
(20 世 纪 80 年 代 后 期 一 现在 ) 
© 数据 仓库 与 联机 分 析 处 理 
© 数据 挖掘 与 知识 发 现 : 分 类 、 聚 类 、 离 群 点 
分 析 、 关 联 与 相关 性 、 比 较 汇 总 、 判 别 分 析 、 
模式 发 现 、 趋 势 和 偏差 分 析 等 
© 挖掘 复杂 的 数据 类 型 : 流 、 序 列 、 文 本 、 空 
间 、 时 间 、 多 媒体 、Web、 网 络 等 
© 数据 挖 握 应 用 : 商业 、 社 会 、 零 售 、 银 行 、 
电信 、 科 学 与 工程 、 博 客 、 日 常生 活 等 
© 数据 挖 据 与 社会 ; 无 形 的 数据 挖掘 、 保 护 隐 
私 的 数据 挖掘、 挖掘 社会 与 信息 网 络 、 推 荐 
系统 等 














未 来 一 代 信 息 系 统 
(现在 一 未 来 ) 


图 1.1 


数据 库 系统 技术 的 演变 


大 量 数据 不 仅仅 是 累积 在 数据 库 和 数据 仓库 中 。20 世纪 90 年 代 ， 万维网 和 基于 Web 的 
数据 库 (Biin, XML 数据 库 ) 开始 出 现 。 诸 如 万 维 网 和 各 种 互联 的 、 异 种 数据 库 等 基于 互 
联网 的 全 球 信息 库 已 经 出 现 ， 并 在 信息 产业 中 扮演 极其 重要 的 角色 。 通 过 集成 信息 检索 、 数 
据 挖掘 和 信息 网 络 分 析 技 术 来 有 效 地 分 析 这 些 不 同形 式 的 数据 成 为 一 项 具有 挑战 性 的 任务 。 
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总 之 ， 丰 富 的 数据 以 及 对 强 有 力 的 数据 分 析 工 具 的 需求 ， 这 种 情况 被 描述 为 “数据 丰 


我 如 何 分 析 这 些 数 据 ? 
ae, 


富 ， 但 信息 贫乏 ”( 见 图 1.2) 。 快 速 增长 的 海 
量 数 据 收集 、 存 放 在 大 量 的 大 型 数据 库 中 ， 没 
有 强 有 力 的 工具 ， 理 解 它们 已 经 远 远 超出 了 人 
的 能 力 。 结 果 ， 收 集 在 大 型 数据 库 中 的 数据 变 
成 了 “数据 坟墓 ”一 一 难得 再 访问 的 数据 档 
案 。 这 样 ， 重 要 的 决策 常常 不 是 基于 数据 库 中 
含有 丰富 信息 的 数据 ， 而 是 基于 决策 者 的 直 
觉 。 之 所 以 如 此 ， 仅 仅 是 因为 决策 者 缺乏 从 海 
量 数据 中 提取 有 价值 知识 的 工具 。 尽 管 在 开发 
专家 系统 和 知识 库 系 统 方面 已 经 做 出 很 大 的 努 
力 , 但 是 这 种 系统 通常 依赖 用 户 或 领域 专家 人 
工地 将 知识 输入 知识 库 。 但 不 幸 的 是 ， 这 一 过 
程 常常 有 偏差 和 错误 ， 并 且 费 用 高 、 耗 费时 
间 。 数 据 和 信息 之 间 的 鸿沟 越 来 越 宽 ， 这 就 要 
求 必须 系统 地 开发 数据 挖掘 工 具 ， 将 数据 坟墓 
转换 成 知识 “ 金 块 ”。 


1.2 什么 是 数据 挖掘 


O 





图 1.2 世界 是 数据 丰富 但 信息 贫乏 的 


毫 不 奇怪 ， 作 为 一 个 多 学 科 领 域 ， 数 据 挖 据 可 以 用 多 种 方法 定义 。 即 使 术语 “数据 挖 
据 ” 本 身 实 际 上 也 不 能 完全 表达 其 主要 含义 。 从 矿石 或 砂子 中 挖掘 黄金 称 做 黄金 挖 气 ， 而 


不 是 砂 石 挖掘 。 类 似 地 ， 数 据 挖掘 应 当 更 正确 
地 命名 为 “从 数据 中 挖掘 知识 ”， 不 幸 的 是 这 
有 点 长 。 然 而 ， 较 短 的 术语 “知识 挖 气 ” 可 能 
反映 不 出 强调 的 是 从 大 量 数据 中 挖掘 。 毕 竟 ， 
“ 挖 据 ”是 一 个 很 生动 的 术语 , 它 抓 住 了 从 大 
量 的 、 未 加 工 的 材料 中 发 现 少 量 宝贵 金 块 这 一 
过 程 的 特点 〈 见 图 1.3)。 这 样 ， 这 种 不 恰当 的 
用 词 包含 了 “数据 ”和 “ 挖 据 "， 成 了 一 种 流 
行 的 选择 。 此 外 ， 还 有 一 些 术语 具有 和 数据 控 
据 类 似 的 含义 ,例如 从 数据 中 挖掘 知识 、 知 识 
提取 、 数 据 /模式 分 析 、 数 据 考古 和 数据 捕捞 。 

许多 人 把 数据 挖掘 视 为 另 一 个 流行 术语 数 
据 中 的 知识 发 现 (KDD) 的 同义词 ， 而 另 一 
些 人 只 是 把 数据 挖掘 视 为 知识 发 现 过 程 的 一 个 
基本 步骤 。 知 识 发 现 过 程 如 图 1.4 所 示 ， 由 以 
下 步骤 的 迭代 序列 组 成 : 


(1) 数据 清理 〈 消除 噪声 和 删除 不 一 致 数据 ) 。 
(2) 数据 集成 〈 多 种 数据 源 可 以 组 合 在 一 起 ) .9 








知识 (有 趣 的 模式 ) 


O ”信息 产业 界 的 一 个 流行 趋势 是 将 数据 清理 和 数据 集成 作为 预 处 理 步 又 执行 ， 结 果 数 据 存放 在 数据 仓库 中 。 
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(3) 数据 选择 (从 数据 库 中 提取 与 分 析 任 务 相关 的 数据 )。 

(4) 数据 变换 〈 通 过 汇总 或 聚集 操作 ， 把 数据 变换 和 统一 成 适合 挖掘 的 形式 ) 9 

(5) 数据 挖掘 (基本 步 又， 使 用 智能 方法 提取 数据 模式 ) 。 

(6) 模式 评估 (根据 某 种 兴趣 度 度量 ,识别 代表 知识 的 真正 有 趣 的 模式 。 见 1.4.6 节 )。 

(7) 知识 表示 (使 用 可 视 化 和 知识 表示 技术 ， 向 用 户 提供 挖掘 的 知识 ) 。 

步 又 1 ~4 是 数据 预 处 理 的 不 同形 式 ， 为 挖掘 准备 数据 。 数 据 挖掘 步 又 可 能 与 用 户 或 知 
识 库 交 互 。 有 趣 的 模式 提供 给 用 户 ， 或 作为 新 的 知识 存放 在 知识 库 中 。 
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图 1.4 数据 挖掘 视 为 知识 发 现 过 程 的 一 个 步骤 





O 有时， 数据 变换 和 数据 统一 在 数据 选择 过 程 之 前 进行 ， 特 别 是 在 数据 仓库 化 的 情况 下 。 可 能 还 需要 进行 数据 归 
约 ， 以 得 到 原始 数据 的 较 小 表示 ， 而 不 牺牲 完整 性 。 


这 种 观点 把 数据 挖掘 看 做 知识 发 现 过 程 中 的 一 个 步骤 ， 尽 管 是 最 重要 的 一 个 步 双 ， 因 为 
它 发 现 用 来 评估 的 隐藏 模式 。 然 而 ， 在 产业 界 、 媒 体 和 研究 界 , “数据 挖 所 ”通常 用 来 表示 
整个 知识 发 现 过 程 〈 或 许 因 为 术语 “数据 挖掘 ” 比 “从 数据 中 发 现 知识 ” 短 )。 因 此 ， 我 
们 采用 广义 的 数据 挖掘 功能 的 观点 ; 数据 挖 据 是 从 大 量 数据 中 挖掘 有 趣 模式 和 知识 的 过 程 。 
数据 源 包括 数据 库 、 数 据 仓库 、Web、 其 他 信息 存储 库 或 动态 地 流入 系统 的 数据 。 


1.3 可 以 挖 拥 什 么 类 型 的 数据 

作为 一 种 通用 技术 ， 数 据 挖掘 可 以 用 于 任何 类 型 的 数据 ， 只 楼 数据 对 目标 应 用 是 有 意义 
的 。 对 于 挖掘 的 应 用 ， 数 据 的 最 基本 形式 是 数据 库 数据 (1. 3. 1 节 ) 、 数 据 仓库 数据 (1.3.2 
节 ) 和 事务 数据 〈1. 3. 3 节 ) 。 本 书 提供 的 概念 和 技术 集中 考虑 这 类 数据 。 数 据 挖掘 也 可 以 
用 于 其 他 类 型 的 数据 (例如 ， 数 据 流 、 有 序 /序列 数据 、 图 或 网 络 数据 、 空 间 数 据 、 文 本 数 
据 、 多 媒体 数据 和 万 维 网 ) 。 在 1. 3.4 节 ， 我 们 给 出 这 些 数据 的 概述 。 关 于 这 类 数据 的 挖 所 
技术 在 第 13 章 简略 介绍 。 随 着 新 的 数据 类 型 的 出 现 ， 数 据 挖 据 无 疑 也 将 包含 它们 。 


1.3.1 数据 库 数据 


数据 库 系统 ， 也 称 数 据 库 管理 系统 (DBMS)， 由 一 组 内 部 相关 的 数据 ( 称 做 数据 库 ) 
和 一 组 管理 和 存 取 数 据 的 软件 程序 组 成 。 软 件 程序 提供 如 下 机 制 : 定义 数据 库 结 构 和 数据 存 
储 ， 说 明和 管理 并 发 、 共 享 或 分 布 式 数据 访问 ， 面 对 系统 竣 痰 或 未 授权 的 访问 ， 确 保存 储 的 
信息 的 一 致 性 和 安全 性 。 
关系 数据 库 是 表 的 汇集 ， 每 个 表 都 被 赋予 一 个 唯一 的 和 名字。 每 个 表 都 包含 一 组 属性 
( 列 或 字段 )， 并 且 通 常 存放 大 量 元 组 (记录 或 行 )。 关 系 表 中 的 每 个 元 组 代表 一 个 对 象 ， 被 
唯一 的 关键 字 标 识 ， 并 被 一 组 属性 值 描述 。 通 常 为 关系 数据 库 构 建 语义 数据 模型 ， 如 实体 - 
RAR (ER) 数据 模型 。ER 数据 模型 将 数据 库 表 示 成 一 组 实体 和 它们 之 间 的 联系 。 
例 1.2 AllElectronics 的 关系 数据 库 。 本 书 中 虚构 的 AllElectronics 商店 用 于 解释 概念 。 
该 公司 用 下 列 关 系 表 描述 ，customer，item，employee 和 branch。 这 些 表 的 的 表 头 显示 在 
图 1.5 中 ( 表 头 又 称 关 系 模式 ) 。 
。 KA customer 由 一 组 描述 顾客 信息 的 属性 组 成 ， 包 括 顾 客 的 唯一 标识 号 (cust_1D)、 
顾客 的 姓 和 名、 地址、 年龄 、 职 业 、 年 收入 、 信 用 信息 、 类 别 等 。 . 
© KWE, XZ employee, branch 和 item 都 包含 一 组 属性 ， 描 述 这 些 实体 的 性 质 。 
。 表 也 可 以 用 来 表示 多 个 实体 之 间 的 联系 。 在 我 们 的 例子 中 ， 这 种 表 包 括 purchases 
(顾客 购买 商品 ， 创 建 一 个 由 雇员 处 理 的 销售 事务 ) | iterms_sold (给 定 事 务 销售 的 商 
品 列 表 ) 和 work_at (雇员 在 AllElectronics 的 一 个 部 门 工作 ) 。 a 


customer (cust ID, name, address, age, occupation, annual_income, credit_information, 
category, ...) 








item (litem_ID, brand, category, type, price, place_made, supplier, cost, ...) 
employee (emp! ID, name, category, group, salary, commission, ...) 
branch — (branch_{D, name, address, ...) 
purchases (trans_ID, cust_ID, empl_ID, date, time, method_paid, amount) 
items_sold  (trans_ID, item_ID, qty) 
works at (empl_ID, branch_ID) 











图 1.5 AllElectronics 关系 数据 库 的 关系 模式 
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关系 数据 可 以 通过 数据 库 查 询 访问 。 数 据 库 查 询 使 用 如 SQL 这 样 的 关系 查询 语言 ， 或 
借助 于 图 形 用 户 界面 书写 。 一 个 给 定 的 查询 被 转换 成 一 系列 关系 操作 ， 如 连接 、 选 择 和 投 
影 ， 并 被 优化 ， 以 便 有 效 地 处 理 。 查 询 可 以 提取 数据 的 一 个 指定 的 子 集 。 假 设 你 的 工作 
是 分 析 AllElectronics 的 数据 。 通 过 使 用 关系 查询 ， 你 可 以 所 这 样 的 问题 : “显示 一 个 列 有 
上 个 季度 销售 的 所 有 商品 的 列表 ”。 关 系 查询 语言 也 可 以 包含 聚集 函数 ， 如 sum, avg 
(平均 )、count、max (最 大 ) 和 min (最 小 )。 这 些 使 得 你 可 以 问 “ 显 示 上 个 月 按 部 门 
分 组 的 总 销售 ”、“ 多 少 销售 事务 出 现在 12 月 份 ” 或 “ 哪 一 位 销售 人 员 的 销售 量 最 高 ”这 
样 的 问题 。 

当 数 据 挖掘 用 于 关系 数据 库 时 ， 你 可 以 进一步 搜索 趋势 或 数据 模式 。 例 如 ， 数 据 挖掘 系 
统 可 以 分 析 顾 窜 数据 ， 根 据 顾客 的 收入 、 年 龄 和 以 前 的 信用 信息 预测 新 顾客 的 信用 风险 。 数 
据 挖掘 系统 也 可 以 检测 偏差 : 例如 ， 与 以 前 的 年 份 相 比 ， 哪 些 商 品 的 销售 出 人 预料 。 可 以 进 
一 步 考 察 这 种 偏差 : 例如 ， 数 据 挖掘 可 能 发 现 这 些 商 品 的 包装 的 变化 ,或 价格 的 大 幅度 
提高 。 

关系 数据 库 是 数据 挖掘 的 最 常见 、 最 丰富 的 信息 源 ， 因 此 它 是 我 们 数据 挖 据 研 究 的 一 种 
主要 数据 形式 。 


1.3.2 ”数据 仓库 


假设 AllElectronics 是 一 个 成 功 的 跨国 公司 ， 分 部 遍布 全 世界 。 每 个 分 部 都 有 一 组 自己 的 
数据 库 。AllElectronics 的 总 裁 要 你 提供 公司 第 三 季度 每 种 类 型 的 商品 及 每 个 分 部 的 销售 分 
析 。 这 是 一 项 困难 的 任务 ， 特 别 是 当 相关 数据 散布 在 多 个 数据 库 ， 物 理 地 驻 留 在 许多 站 点 时 
尤其 如 此 。 

如 果 AllElectronics 有 一 个 数据 仓库 ， 该 任务 将 是 容易 的 。 数 据 仓库 是 一 个 从 多 个 数据 源 
收集 的 信息 存储 库 ， 存 放 在 一 致 的 模式 下 ， 并 且 通 常 驻 留 在 单个 站 点 上 。 数 据 仓库 通过 数据 
清理 、 数 据 变换 、 数 据 集成 、 数 据 装 入 和 定期 数据 刷新 来 构造 。 该 过 程 将 在 第 3、4 章 详 细 
讨论 。 图 1.6 给 出 了 AllElectronics 的 数据 仓库 构造 和 使 用 的 典型 框架 。 


芝加哥 的 数据 源 、 a 
IN FE 一 一 EP) 
J 清理 \ 一 
纽约 的 数据 源 | ER \ | 数据 全 查询 与 
| $ / 仓库 CNIR | 
C 办 Ne 
多 伦 多 的 数据 源 ”一 人 客户) 
温哥华 的 数据 源 


图 1.6 AllElectronics 数据 仓库 的 典型 框架 


为 便于 决策 ， 数 据 仓库 中 的 数据 围绕 主题 (如 顾客 、 商 品 、 供 应 商 和 活动 ) 组 织 。 数 
据 存 储 从 历史 的 角度 (如 过 去 的 6~12 个 月 ) 提供 信息 ， 并 日 通常 是 汇总 的 。 例 如 ， 数 据 
仓库 不 是 存放 每 个 销售 事务 的 细节 ， 而 是 存放 每 个 商店 、 每 类 商品 的 销售 事务 的 汇总 ， 或 汇 
总 到 较 高 层次 ， 即 每 个 销售 地 区 、 每 类 商品 的 销售 事务 的 汇总 。 
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通常 ， 数 据 仓库 用 称 做 数据 立方 体 (data cube) 的 多 维 数据 结构 建 模 。 其 中 ， 每 个 维 对 

[10] 应 于 模式 中 的 一 个 或 一 组 属性 ， 而 每 个 单元 存放 某 种 聚集 度量 值 ， 如 count 或 sum( sales_a- 
mount) 。 数 据 立 方 体 提供 数据 的 多 维 视图 ， 并 允许 预计 算 和 快速 访问 汇总 数据 。 

例 1.3 AllElectronics 的 数据 立方 体 。AllElectronics 的 汇总 销售 数据 的 数据 立方 体 显示 

在 图 1. 7a 中 。 该 立方 体 有 三 个 维 : address( 城 市值 芝加哥 、 纽 约 、 多 伦 多 、 温 哥 华 ) time 

(季度 值 01 02, 03, Q4), item (商品 类 型 值 家 庭 娱 乐 、 计 算 机 、 电 话 、 安 全 ) 。 存 放 在 

立方 体 的 每 个 单元 中 的 聚集 值 是 sales_amoun (单位 : 千 美元 ) 。 例 如 ， 在 第 一 季度 01, 与 

安全 系统 相关 的 商品 在 温哥华 的 总 销售 为 400， 存 放 在 单元 (温哥华 ，0Q1， 安 全 〉 中 。 其 他 

立方 体 可 以 用 于 存放 每 个 维 上 的 聚集 和 ， 对 应 于 使 用 不 同 的 SQL 分 组 得 到 的 聚集 值 (例如 ， 
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b) 


图 1.7 一 个 通常 用 于 数据 仓库 的 多 维 数据 立方 体 : a) 显示 AllElectronics 的 汇总 数据 ; b) 显示 
Bla) 中 数据 立方 体 上 的 下 外 和 上 卷 的 结果 。 为 便于 观察 ， 只 给 出 部 分 立方 体 单元 值 


通过 提供 多 维 数据 视图 和 汇总 数据 的 预计 算 ， 数据 仓库 非常 适合 联机 分 析 处 理 。OLAP 
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操作 使 用 所 研究 的 数据 的 领域 背景 知识 ， 允 许 在 不 同 的 抽象 层 提 供 数 据 。 这 些 操 作 适 合 不 同 
的 用 户 角度 。OLAP 操作 的 例子 包括 下 钼 (drill- down) 和 上 卷 (roll-up)， 它 们 允许 用 户 在 
不 同 的 汇总 级 别 观察 数据 ， 如 图 1. 7b 所 示 。 例 如 ， 可 以 对 按 季度 汇总 的 销售 数据 下 钻 ， 观 
察 按 月 汇总 的 数据 。 类 似 地 ， 可 以 对 按 城市 汇总 的 销售 数据 上 卷 ， 观 察 按 国家 汇总 的 数据 。 

尽管 数据 仓库 工具 对 于 支持 数据 分 析 是 有 帮助 的 ， 但 是 进行 深入 分 析 仍 然 需要 更 多 的 数 
据 控 据 工 具 。 多 维 数 据 挖 据 (又 称 探索 式 多 维 数 据 挖 据 ) 以 OLAP 风格 在 多 维 空间 进行 数据 
挖掘 。 也 就 是 说 ， 在 数据 挖掘 中 ， 人 允许 在 各 种 粒度 进行 多 维 组 合 探查 ， 因 此 更 有 可 能 发 现代 
表 知 识 的 有 趣 模式 。 数 据 仓库 和 OLAP 技术 的 概述 在 第 4 章 提 供 ， 而 关于 数据 立方 体 计算 和 
多 维 数据 挖掘 在 第 5 章 讨 论 。 


13.3 事务 数据 

一 般 地 说 ， 事 务 数据 库 的 每 个 记录 代表 一 个 事务 ， 如 顾客 的 一 次 购物 、 一 个 航班 订 票 ， 
或 一 个 用 户 的 网 页 点 击 。 通 常 ， 一 个 事务 包含 一 个 唯一 的 事务 标识 号 (trans_ID), UR— 
个 组 成 事务 的 项 〈 如 ， 交 易 中 购 买 的 商品 ) 的 列表 。 事 务 数据 库 可 能 有 一 些 与 之 相关 联 的 
附加 表 ， 包 含 关 于 事务 的 其 他 信息 ， 如 商品 描述 、 关 于 销售 人 员 或 部 门 等 的 信息 。 

例 1.4 AllElectronics 的 事务 数据 库 。 事 务 可 以 存放 在 | rans 1D | 商品 万 的 列表 | 


表 中 ， 每 个 事务 一 个 记录 。AllElectronics 的 事务 数据 库 的 片 T100 11, 13, 18, 116 
段 显示 在 图 1.8 中 。 从 关系 数据 库 的 角度 来 看 ， 图 1. 8 中 的 T200 12, 18 




















sales Rit—TPREKAR, AAR “BSD 的 列表 ”包含 商 
品 的 集合 。 由 于 大 部 分 关系 数据 库 系统 都 不 支持 赃 套 关系 结 ”图 1.8 AlElectronics 销售 事务 
H., 事务 数 据 库 通 常 存放 在 一 个 类 似 于 图 1.8 中 的 表格 式 的 数据 库 的 片段 
平面 文件 中 ,或 展开 到 类 似 于 图 1.5 的 items_sold 表 的 标准 关系 中 。 u 
作为 AllElectronics 数据 库 的 分 析 者 ， 你 可 能 问 “ 哪 些 商品 一 起 销售 得 很 好 ?” 这 种 “ 购 
物 篮 数 据 分 析 ” 使 你 能 够 制定 促销 策略 ， 将 商品 捆绑 销售 。 例 如 ， 有 了 “打印 机 与 计算 机 
经 常 一 起 销售 ”的 知识 ， 你 可 以 向 购买 指定 计算 机 的 顾客 以 较 大 的 折扣 (其 至 免费 ) 提供 
茶 种 打印 机 ， 以 期 销售 更 多 较 贵 的 计算 机 (通常 比 打印 机 更 贵 )。 传 统 的 数据 库 系 统 不 能 进 
行 购物 篮 数据 分 析 。 幸 运 的 是 ， 事务 数 据 上 的 数据 挖掘 可 以 通过 挖掘 频繁 项 集 来 做 这 件 事 。 
频繁 项 集 是 频繁 地 一 起 销售 的 商品 的 集合 。 事 务 数据 的 频繁 模式 挖掘 在 第 6、7 章 讨论 。 


1.3.4 ”其 他 类 型 的 数据 


除 关系 数据 库 数 据 、 数 据 仓 库 数据 和 事务 数据 外 ， 还 有 许多 其 他 类 型 的 数据 ， 它 们 具有 
各 种 各 样 的 形式 和 结构 ， 具 有 很 不 相同 的 语义 。 这 样 的 数据 类 型 在 许多 应 用 中 都 可 以 看 到 ， 
如 时 间 相 关 或 序列 数据 (例如 历史 记录 、 股 票 交易 数据 、 时 间 序 列 和 生物 学 序列 数据 ) 、 数 
据 流 (例如 视频 监控 和 传感器 数据 ， 它 们 连续 播送 ) 、 空 间 数 据 ( 如 地 图 ) 、 工 程 设计 数据 
( 如 建筑 数据 、 系 统 部 件 或 集成 电路 ) 、 超 文本 和 多 媒体 数据 (包括 文本 、 图 像 、 视 频 和 音 
频数 据 ) 、 图 和 网 状 数据 (如 社会 和 信息 网 络 ) 和 万 维 网 (由 Internet 提供 的 巨型 、 广 泛 分 
布 的 信息 存储 库 ) 。 这 些 应 用 带 来 了 新 的 挑战 例如， 如何 处 理 具 有 空间 结构 的 数据 (如 序 
列 、 树 、 图 和 网 络 ) 和 特殊 语义 (如 次 序 、 图 像 、 音 频 和 视频 的 内 容 、 连 接 性 ) ， 以 及 如 何 
挖掘 具有 丰富 结构 和 语义 的 模式 。 

可 以 从 这 些 类 型 的 数据 中 挖掘 各 种 知识 。 这 里 ， 我 们 只 列举 少许 。 例 如 ， 就 时 间 数 据 而 
言 ， 可 以 挖掘 银行 数据 的 变化 趋势 ， 这 可 以 帮助 银行 根据 顾客 流量 安排 出 纳 员 。 可 以 挖掘 股 
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票 交易 数据 ， 发 现 趋势 ， 帮 助 你 规划 投资 策略 〈 例 如 ， 购 买 AllElectronics 的 股票 的 最 佳 时 
机 ) 。 可 以 挖掘 计算 机 网 络 数据 ， 根 据 消 息 流 的 异常 进行 人 侵 检测 。 这 种 异常 可 以 通过 聚 
类 、 流 模型 的 动态 构建 ， 或 把 当前 的 频繁 模式 与 先前 的 比较 来 发 现 。 使 用 空间 数据 ， 我 们 可 
能 得 到 根据 城市 离 主要 公路 的 距离 描述 都 市 贫困 率 的 变化 趋势 的 模式 。 可 以 考察 空间 对 象 集 
之 间 的 联系 ， 发 现 哪 些 对 象 子 集 是 空间 自 相关 或 关联 的 。 通 过 挖掘 文本 数据 ， 如 挖掘 过 去 
10 年 “数据 挖掘” 方面 的 文献 ， 可 以 了 解 该 领域 热点 课题 的 演变 。 通 过 挖掘 顾客 对 产品 发 
表 的 评论 〈 通 常 ， 以 短文 本 消息 提交 ) ， 我 们 可 以 评估 顾客 的 意见 ， 了 解 产品 被 市 场 接受 的 
程度 。 由 多 媒体 数据 ， 我 们 可 以 挖掘 图 像 ， 识 别 对 象 ， 并 通过 指派 语义 标号 或 标签 对 它们 分 
类 。 通 过 挖掘 曲棍球 运动 的 视频 数据 ， 可 以 检测 对 应 于 进 球 的 视频 序列 。Web 挖 气 可 以 帮 
助 我 们 了 解 万 维 网 信息 的 一 般 分 布 ， 刻 画 网 页 的 特征 ， 对 网 页 进行 分 类 ， 并 发 现 Web 的 动 
态 ， 以 及 不 同 网 页 、 用 户 、 社 区 和 基于 Web 的 活动 之 间 的 关联 和 联系 。 

重要 的 是 记 住 ， 在 许多 应 用 中 ， 存 在 多 种 数据 类 型 。 例 如 ， 在 Web 挖掘 中 ， 网 页 上 常 
常 有 文本 数据 和 多 媒体 数据 (如 照片 和 视频 ) 、 像 Web 图 那样 的 图 形 数据 、 某 些 Web 站 点 
上 的 地 图 数据 。 在 生物 信息 学 中 ， 对 于 某 些 生物 学 对 象 ， 染 色 体 序列 、 生 物 学 网 络 和 染色 体 
的 3D 空间 结构 可 能 同时 存在 。 由 于 多 个 数据 源 的 相互 提升 与 加 强 ， 控 掘 复杂 对 象 的 多 个 数 
据 源 常常 导致 硕果 累累 的 发 现 。 另 一 方面 ， 由 于 数据 清理 和 数据 集成 的 困难 性 ， 以 及 这 种 数 
据 的 多 个 数据 源 之 间 的 复杂 相互 作用 ， 挖 掘 复杂 对 象 也 是 一 大 挑战 。 

虽然 这 样 的 数据 需要 复杂 的 机 制 ， 以 便 有 效 地 存储 、 检 索 和 更 新 大 量 复杂 的 数据 ， 但 是 
它们 也 为 数据 挖掘 提供 了 肥沃 的 土壤 ， 提 出 了 挑战 性 的 研究 和 实现 问题 。 在 这 些 数 据 上 挖掘 
是 高 级 课题 ， 所 用 的 方法 是 本 书 提供 的 基本 技术 的 扩展 。 


1.4 可 以 挖掘 什么 类 型 的 模式 

我 们 已 经 观察 了 可 以 进行 数据 挖掘 的 各 种 数据 和 信息 存储 库 。 现 在 ， 让 我 们 考察 可 以 控 
掘 的 数据 模式 。 

存在 大 量 数据 挖 据 功 能， 包括 特征 化 与 区 分 (1.4.1 节 ) ， 频 繁 模式 、 关 联 和 相关 性 控 
H (1.4.2 节 )， 分 类 与 回归 (1.4.3 节 )， 聚 类 分 析 (1.4.4 节 )， 离 群 点 分 析 (1.4.5 
节 )。 数 据 挖 据 功 能 用 于 指定 数据 挖掘 任务 发 现 的 模式 。 一 般 而 言 ， 这 些 任务 可 以 分 为 两 
类 : 描述 性 (descriptive) 和 预测 性 (predictive) 。 描 述 性 挖掘 任务 刻画 目标 数据 中 数据 的 一 
般 性 质 。 预 测 性 挖掘 任务 在 当前 数据 上 进行 归纳 ， 以 便 做 出 预测 。 

数据 挖 握 功能 以 及 它们 可 以 发 现 的 模式 类 型 在 下 面 介绍 。 此 外 ，1. 4. 6 节 考 察 使 模式 有 
趣 的 原因 是 什么 。 有 趣 的 模式 即 代 表 知 识 。 


1.4.1 类 /概念 描述 ， 特征 化 与 区 分 


数据 可 以 与 类 或 概念 相关 联 。 例 如 ， 在 AllElectronics 商店 ， 销 售 的 商品 类 包括 计算 机 和 打 
印 机 ， 顾 客 概念 包括 bigSpenders 和 budgetSpenders。 用 汇总 的 、 简 洁 的 、 精 确 的 表达 方式 描述 每 
个 类 和 概念 是 有 用 的 。 这 种 类 或 概念 的 描述 称 为 类 /概念 描述 。 这 种 描述 可 以 通过 下 述 方法 得 
到 : (1) 数据 特征 化 ,一 般 地 汇总 所 研究 类 (通常 称 为 目标 类 ) 的 数据 ; (2) 数据 区 分 ,将 
目标 类 与 一 个 或 多 个 可 比较 类 (通常 称 为 对 比 类 ) 进行 比较 ; (3) 数据 特征 化 和 区 分 。 

数据 特征 化 (data characterization) 是 目标 类 数据 的 一 般 特性 或 特征 的 汇总 。 通 常 ， 通 
过 查询 来 收集 对 应 于 用 户 指定 类 的 数据 。 例 如 ， 为 研究 上 一 年 销售 增加 10% 的 软件 产品 的 
特征 ， 可 以 通过 在 销售 数据 库 上 执行 一 个 SQL 查询 来 收集 关于 这 些 产 品 的 数据 。 
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将 数据 汇总 和 特征 化 有 一 些 有 效 的 方法 。 基 于 统计 度量 和 图 的 简单 数据 汇总 在 第 2 章 介 
绍 。 基 于 数据 立方 体 的 OLAP 上 卷 操作 (1.3.2 节 ) 可 以 用 来 执行 用 户 控制 的 、 沿 着 指定 维 的 
数据 汇总 。 该 过 程 将 在 第 4、5 章 讨论 数据 仓库 时 进一步 详细 介绍 。 面 向 属性 的 归纳 技术 可 以 
用 来 进行 数据 的 证 化 和 特征 化 ， 而 不 必 一 步 步 地 与 用 户 交 互 。 这 一 技术 也 将 在 第 4 章 介 绍 。 
数据 特征 化 的 输出 可 以 用 多 种 形式 提供 ， 例 如 饼 图 、 条 图 、 曲 线 、 多 维 数据 立方 体 和 包 
括 交叉 表 在 内 的 多 维 表 。 结 果 描 述 也 可 以 用 广义 关系 或 规则 〈 称 做 特征 规则 ) 形式 提供 。 
例 1.5 数据 特征 化 。AlElectronics 的 客户 关系 经 理 可 能 提出 如 下 数据 挖掘 任务 : “ 汇 
总 一 年 之 内 在 AlElectronics 花费 5000 美元 以 上 的 顾客 特征 。” 结 果 可 能 是 顾客 的 概况 ， 如 年 
龄 在 40 ~50 岁 、 有 工作 、 有 很 好 的 信用 等 级 。 数 据 挖掘 系统 应 当 人 允许 用 户 在 任意 维 下 钻 ， 
如 在 occupation 维 下 外 ， 以 便 根据 这 些 顾 客 的 职业 类 型 来 观察 他 们 。 al 
数据 区 分 (data discrimination) 是 将 目标 类 数据 对 象 的 一 般 特 性 与 一 个 或 多 个 对 比 类 对 
象 的 一 般 特 性 进行 比较 。 目 标 类 和 对 比 类 可 以 由 用 户 指定 ， 而 对 应 的 数据 对 象 可 以 通过 数据 
库 查 询 检 索 。 例 如 ， 用 户 可 能 希望 将 上 一 年 销售 增加 10% 的 软件 产品 与 同一 时 期 销售 至 少 
下 降 30% 的 软件 产品 进行 比较 。 用 于 数据 区 分 的 方法 与 用 于 数据 特征 化 的 方法 类 似 。 
“如 何 输出 区 分 描述 ?” 输 出 的 提供 形式 类 似 于 特征 描述 ， 但 是 区 分 描述 应 当 包 括 比 较 度 
量 ， 以 便 帮 助 区 别 目 标 类 和 对 比 类 。 用 规则 表示 的 区 分 描述 称 为 区 分 规则 (discriminant rule), 
例 1.6 数据 区 分 。AllElectronics 的 客户 关系 经 理 可 能 想 比 较 两 组 顾客 定期 (H 
如 ， 每 月 多 于 2 次 ) 购买 计算 机 产品 的 顾客 和 不 经 常 ( 例 如， 每 年 少 于 3 次 ) 购买 这 种 产 
品 的 顾客 。 结 果 描述 提供 这 些 顾客 比较 的 概况 ， 例 如 频繁 购买 计算 机 产品 的 顾客 80% 在 20 
~40 岁 之 间 ， 受 过 大 学 教育 ; 而 不 经 常 购买 这 种 产品 的 顾客 60% 或 者 年 龄 太 大 或 者 太 年 青 ， 
没有 大 学 学 位 。 沿 着 维 下 钴 ， 如 沿 occupation 维 下 钻 ， 或 添加 新 的 维 ， 如 income_level 维 ， 可 
以 帮助 发 现 两 类 之 间 的 更 多 区 分 特征 。 = 
概念 描述 (包括 特征 化 和 区 分 ) 在 第 4 章 介绍 。 


1.4.2 挖掘 频繁 模式 、 关 联 和 相关 性 


正如 名 称 所 示 ， 频 繁 模式 (frequent pattem) 是 在 数据 中 频繁 出 现 的 模式 。 存 在 多 种 类 
型 的 频繁 模式 ， 包 括 频繁 项 集 、 频 繁 子 序列 (又 称 序列 模式 ) 和 频繁 子 结构 。 频 繁 项 集 一 
般 是 指 频 繁 地 在 事务 数据 集中 一 起 出 现 的 商品 的 集合 ， 如 小 卖 部 中 被 许多 顾客 频繁 地 一 起 购 
买 的 牛奶 和 面包 。 频 繁 出 现 的 子 序列 ， 如 顾客 倾向 于 先 购买 便携 机 ， 再 购买 数码 相机 ， 然 后 
上 再 购买 内 存 卡 这 样 的 模式 就 是 一 个 (频繁 ) 序列 模式 。 子 结构 可 能 涉及 不 同 的 结构 形式 
(例如 ， 图 、 树 或 格 ) ， 可 以 与 项 集 或 子 序列 结合 在 一 起 。 如 果 一 个 子 结构 频繁 地 出 现 ， 则 
称 它 为 (频繁) 结构 模式 。 挖 掘 频繁 模式 导致 发 现 数据 中 有 趣 的 关联 和 相关 性 。 

例 1.7 ”关联 分 析 。 假 设 作 为 AllElectronics 的 市 场 部 经 理 ， 你 想 知道 哪些 商品 经 常 一 块 
被 购买 ( 即 ， 在 相同 的 事务 中 ) M AllElectronics 的 事务 数据 库 中 挖掘 出 来 的 这 种 规则 的 一 
个 例子 是 

buys( X ,“ computer” ) =buys( X , “ software” ) [ support = 1% , confidence =50% | 
其 中 , 于 是 变量 ， 代 表 顾 客 。50% 的 置信 度 或 确信 性 意味 ， 如 果 一 位 顾客 购买 计算 机 ， 则 购 
买 软件 的 可 能 性 是 50% 。1% 的 支持 度 意味 ， 所 分 析 的 所 有 事务 的 1% 显示 计算 机 与 软件 一 
起 被 购买 。 这 个 关联 规则 涉及 单个 重复 的 属性 或 谓词 ( 即 buys) 。 包 含 单个 谓词 的 关联 规则 
称 做 单 维 关联 规则 (single- dimensional association rule) 。 去 掉 谓词 符号 ， 上 面 的 规则 可 以 简 
单 地 写成 “computer=>sofiware[ 1% , 50% |”, 
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假设 给 定 涉及 购买 的 AllElectronics 关系 数据 库 。 数 据 挖掘 系统 还 可 以 发 现 如 下 形式 的 规则 
age( X ,“20. . 29” ) A income( X ,“40K. . 49K” )=>buys( X , “laptop” )[ support =2% „confidence =60% | 
该 规则 指出 ， 在 所 研究 的 AllElectronics 顾客 中 ，2% 的 年 龄 是 20 ~29 岁 ， 年 收入 为 40 000 ~ 
49 000 美元 ， 并 且 在 AllElectronics 购买 了 便携 式 计算 机 。 这 个 年 龄 和 收入 组 的 顾客 购买 便携 
机 的 概率 为 60% 。 注 意 ， 这 是 涉及 多 个 属性 或 谓词 (Bl age, income 和 buys) MXR. KA 
多 维 数 据 库 使 用 的 术语 ， 每 个 属性 称 做 一 个 维 ， 上 面 的 规则 可 以 称 做 多 维 关联 规则 (multi- 
[17] dimensional association rule) 。 E 
通常 ， 一 个 关联 规则 被 认为 是 无 趣 的 而 被 丢弃 ， 如 果 它 不 能 同时 满足 最 小 支持 度 阅 值 和 
最 小 置信 和 度 益 值 。 还 可 以 做 进一步 分 析 ， 发 现 相关 联 的 属性 - 值 对 之 间 的 有 趣 的 统计 相关 性 
(correlation) 。 
频繁 项 集 挖掘 是 频繁 模式 挖掘 的 基础 。 频 繁 模式 、 关 联 和 相关 性 挖掘 在 第 6、7 章 讨论 ， 
其 中 特别 强调 频繁 项 集 挖 气 的 有 效 算 法 。 序 列 模式 挖掘 和 结构 化 模式 挖掘 被 看 做 高 级 课题 。 


1.4.3 ”用 于 预测 分 析 的 分 类 与 回归 


分 类 (classification) 是 这 样 的 过 程 ， 它 找 出 描述 和 区 分 数据 类 或 概念 的 模型 (或 函 
数 ) ， 以 便 能 够 使 用 模型 预测 类 标号 未 知 的 对 象 的 类 标号 。 导 出 模型 是 基于 对 训练 数据 集 
《 即 ， 类 标号 已 知 的 数据 对 象 ) 的 分 析 。 该 模型 用 来 预测 类 标号 未 知 的 对 象 的 类 标号 。 

“如 何 提供 导出 的 模型 ?” 导 出 的 模型 可 以 用 多 种 形式 表示 ， 如 分 类 规则 〈 即 IF- THEN 
规则 )、 决 策 树 、 数 学 公式 或 神经 网 络 ( 见 图 1.9) 。 决 策 树 是 一 种 类 似 于 流程 图 的 树 结构 ， 
其 中 每 个 结 点 代表 在 一 个 属性 值 上 的 测试 ， 每 个 分 支 代 表 测 试 的 一 个 结果 ， 而 树叶 代表 类 或 
类 分 布 。 容 易 把 决策 树 转换 成 分 类 规则 。 当 用 于 分 类 时 ， 神 经 网 络 是 一 组 类 似 于 神经 元 的 处 
理 单元 ， 单 元 之 间 加 权 连 接 。 还 有 许多 构造 分 类 模型 的 其 他 方法 ， 如 朴素 贝 叶 斯 分 类 、 支 持 
向 量 机 和 上 最 近邻 分 类 。 





age(X, “youth”) AND income(X, “high”) 一 class(X, “A”) 
age(X, “youth”) AND income(X, “low”) ———> class(X, “B”) 
age(X, “middle_aged”) ——~» class(X, “C”) 
age(X, “senior”) 一 一 一 > class(X, “C”) 








图 1.9 分 类 模型 可 以 用 不 同形 式 表示 : a) IF-THEN 规则 ; b) 决策 树 ，e) 神经 网 络 
分 类 预测 类 别 〈 离 散 的 、 无 序 的 ) 标号 ,而 回归 建立 连续 值 函 数 模 型 。 也 就 是 说 ， 回 


归 用 来 预测 缺失 的 或 难以 获得 的 数值 数据 值 ， 而 不 是 (离散 的 ) 类 标号 。 术 语 预 测 可 以 指 
数值 预测 和 类 标号 预测 。 尽 管 还 存在 其 他 方法 ， 但 是 回归 分 析 (regression analysis) 是 一 种 
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最 常 使 用 的 数值 预测 的 统计 学 方法 。 回 归 也 包含 基于 可 用 数据 的 分 布 趋势 识别 。 

相关 分 析 (relevance analysis) 可 能 需要 在 分 类 和 回归 之 前 进行 ， 它 试图 识别 与 分 类 和 
回归 过 程 显著 相关 的 属性 。 我 们 将 选取 这 些 属性 用 于 分 类 和 回归 过 程 ， 其 他 属性 是 不 相关 
的 ， 可 以 不 必 考 虑 。 

例 1.8 分 类 与 回归 。 假 设 作 为 AllElectronics 的 销售 经 理 ， 你 想 根据 对 促销 活动 的 三 种 
反应 ， 对 商店 的 商品 集合 分 类 : 好 的 反应 ， 中 等 反应 和 没有 反应 。 你 想 根 据 商 品 的 描述 特 
性 ， 如 price, brand, place_made 和 category， 对 这 三 类 的 每 一 种 导出 模型 。 结 果 分 类 将 最 大 
限度 地 区 别 每 一 类 ， 提 供 有 组 织 的 数据 集 描述 。 * 

假设 结果 分 类 模型 用 决策 树 的 形式 表示 。 例 如 ， 决 策 树 可 能 把 price 看 做 最 能 区 分 三 个 
类 的 因素 。 该 树 可 能 揭示 ， 除 了 price 之 外 ， 帮 助 进一步 区 分 每 类 对 象 的 其 他 特征 包括 brand 
和 Place_made。 这 样 的 决策 树 可 以 帮助 你 理解 给 定 促销 活动 的 影响 ， 并 帮助 你 设计 未 来 更 有 
效 的 促销 活动 。 

假设 你 不 是 预测 顾客 对 每 种 商品 反应 的 分 类 标号 ， 而 是 想 根 据 先前 的 销售 数据 ， 预 测 在 
AllElectronies 的 未 来 销售 中 每 种 商品 的 收益 。 这 是 一 个 回归 分 析 的 例子 ， 因 为 所 构造 的 模型 


将 预测 一 个 连续 函数 (或 有 序 值 ) 。 a 
第 8、9 章 将 更 详细 地 讨论 分 类 。 回 归 分 析 超 出 了 本 书 的 范围 ， 更 多 信息 在 文献 注释 中 给 出 。 
1.4.4 聚 类 分 析 


不 像 分 类 和 回归 分 析 标 记 类 的 (训练 ) BH, HAE (clustering) 分 析 数 据 对 象 ， 而 不 
考虑 类 标 导 。 在 许多 情况 下 ， 开 始 并 不 存在 标记 类 的 数据 。 可 以 使 用 聚 类 产生 数据 组 群 的 类 标 
号 。 对 象 根据 最 大 化 类 内 相似 性 、 最 小 化 类 间 相 似 性 的 原则 进行 聚 类 或 分 组 。 也 就 是 说 ， 对 象 
WYK (cluster) 这 样 形 成 ， 使 得 相 比 之 下 在 同一 个 篮 中 的 对 象 具 有 很 高 的 相似 性 ， 而 与 其 他 艇 
中 的 对 象 很 不 相似 。 所 形成 的 每 个 簇 都 可 以 看 做 一 个 对 象 类 ， 由 它 可 以 导出 规则 。 聚 类 也 便于 
分 类 法 形成 (taxonomy formation) ， 即 将 观测 组 织 成 类 分 层 结 构 ， 把 类 似 的 事件 组 织 在 一 起 。 

例 1.9 聚 类 分 析 。 可 以 在 AllElectronics 的 顾客 数据 上 进行 聚 类 分 析 ， 识 别 顾客 的 同类 
子 群 。 这 些 秘 可 以 表示 每 个 购物 目标 群 。 图 1. 10 显示 一 个 城市 内 顾客 位 置 的 二 维 图 。 数 据 
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图 1.10 关于 一 个 城市 内 顾客 位 置 的 二 维 图 ， 显 示 了 3 个 数据 得 
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RADHA 10. 11 章 的 主题 。 


1.4.5 离 群 点 分 析 

数据 集中 可 能 包含 一 些 数据 对 象 ， 它 们 与 数据 的 一 般 行为 或 模型 不 一 致 。 这 些 数据 对 象 
是 离 群 点 (outlier) 。 大 部 分 数据 挖掘 方 法 都 将 高 群 点 视 为 噪声 或 异常 而 丢弃 。 然 而 ， 在 一 
些 应 用 中 例如， 欺诈 检测 ) ， 罕 见 的 事件 可 能 比 正常 出 现 的 事件 更 令 人 感 兴趣 。 离 群 点 数 
据 分 析 称 做 离 群 点 分 析 或 异常 挖掘 。 

可 以 假定 一 个 数据 分 布 或 概率 模型 ， 使 用 统计 检验 来 检测 离 群 点 ;或 者 使 用 距离 度量 ， 
将 远离 任何 簇 的 对 象 视 为 离 群 点 。 不 使 用 统计 或 距离 度量 ， 基 于 密度 的 方法 也 可 以 识别 局 部 
区 域 中 的 离 群 点 ， 尽 管 从 全 局 统计 分 布 的 角度 来 看 ， 这 些 局 部 离 群 点 看 上 去 是 正常 的 。 

例 1.10 离 群 点 分 析 。 通 过 检测 一 个 给 定 账号 与 正常 的 付费 相 比 付款 数额 特别 大 ， 
离 群 点 分 析 可 以 发 现 信用 卡 坎 骗 性 使 用 。 离 群 点 还 可 以 通过 购物 地 点 和 类 型 或 购物 频率 
来 检测 。 = 

离 群 点 分 析 在 第 12 章 讨论 。 


1.4.6 所 有 模式 都 是 有 趣 的 吗 


数据 挖掘 系统 具有 产生 数 以 千 计 ， 甚 至 数 以 万 计 模式 或 规则 的 潜在 能 力 。 

你 可 能 会 问 :“ 所 有 模式 都 是 有 趣 的 吗 ?” 答 案 通常 是 否定 的 。 实 际 上 ， 对 于 给 定 的 用 
户 ， 在 可 能 产生 的 模式 中 ， 只 有 一 小 部 分 是 他 感 兴趣 的 。 

这 对 数据 控 握 提出 了 一 系列 严肃 的 问题 。 你 可 能 会 想 : “什么 祥 的 模式 是 有 趣 的 ? 数据 
挖 据 系 统 能 够 产生 所 有 有 趣 的 模式 吗 ? 数据 挖 气 系 统 能 够 仅 产生 有 趣 的 模式 吗 ?” 

对 于 第 一 个 问题 ， 一 个 模式 是 有 趣 的 〈interesting) ， 如 果 它 : (1) 易于 被 人 理解 ，(2) 在 
某 种 确信 度 上 ， 对 于 新 的 或 检验 数据 是 有 效 的 ; (3) 是 潜在 有 用 的 ; (4) 是 新 颖 的 。 如 果 
一 个 模式 证 实 了 用 户 寻 求证 实 的 某 种 假设 ， 则 它 也 是 有 趣 的 。 有 趣 的 模式 代表 知识 。 

存在 一 些 模式 兴趣 度 的 客观 度量 。 这 些 度量 基于 所 发 现 模式 的 结构 和 关于 它们 的 统计 
量 。 对 于 形 如 X=37 的 关联 规则 ， 一 种 客观 度量 是 规则 的 支持 度 (support) 。 规 则 的 支持 度 
表示 事务 数据 库 中 满足 规则 的 事务 所 占 的 百分比 。 支 持 度 可 以 取 概 率 P(XUY)， 其中, XUY 
表示 同时 包含 XY 和 YY 的 事务 ， 即 项 集 X 和 7 了 的 并 。 关 联 规则 的 另 一 种 客观 度量 是 置信 和 度 
(confidence) ， 它 评估 所 发 现 的 规则 的 确信 程度 。 置 信和 度 可 以 取 条 件 概率 P(Y|X) ， 即 包含 
X 的 事务 也 包含 了 的 概率 。 更 形式 化 地 ， 支 持 度 和 置信 和 度 定义 为 

support(X=>Y) = P(X U Y) 
confidence(X=Y) = P(Y|X) 

BE, TREE SSR, BRAT. Gl, RE 
置信 度 出 值 50% 的 规则 可 以 认为 是 无 趣 的 。 低 于 阐 值 的 规则 可 能 反映 噪声 、 异 常 或 少数 情 
况 ， 可 能 不 太 有 价值 。 

其 他 兴趣 度 度量 包括 分 类 CIF-THEN) 规则 的 准确 率 与 履 盖 率 。 一 般 而 言 ， 准 确 率 告诉 
我 们 被 一 个 规则 正确 分 类 的 数据 所 占 的 百分比 。 覆 盖 率 类 似 于 “支持 度 ”， 告 诉 我 们 规则 可 
以 作用 的 数据 所 占 的 百分比 。 就 易于 理解 而 言 ， 我 们 可 以 使 用 一 些 简单 的 客观 度量 来 评估 所 
挖掘 的 模式 的 复杂 度 或 二 进位 长 度 。 

尽管 客观 度量 有 助 于 识别 有 趣 的 模式 ， 但 是 仅 有 这 些 还 不 够 ， 还 要 结合 反映 特定 用 户 需要 和 
兴趣 的 主观 度量 。 例 如 ， 对 于 销售 部 经 理 ， 刻 画 频繁 在 AllElectronics 购物 的 顾客 特性 的 模式 应 当 
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是 有 趣 的 ; 但 是 对 于 研究 同一 数据 库 的 分 析 雇 员 业 绩 模 式 的 分 析 者 而 言 ， 它 可 能 是 无 趣 的 。 此 
外 ， 有 些 根据 客观 标准 觉得 有 趣 的 模式 可 能 反映 一 般 常识 ， 因 而 实际 上 并 不 令 人 感 兴趣 。 

主观 兴趣 度 度量 基于 用 户 对 数据 的 信念 。 这 种 度量 发 现 模式 是 有 趣 的 ， 如 果 它 们 是 出 平 
意料 的 〈 与 用 户 的 信念 相 矛 盾 ) ， 或 者 提供 用 户 可 以 采取 行动 的 至 关 重 要 的 信息 。 在 后 一 种 
情况 下 ， 这 样 的 模式 称 为 可 行动 的 (actionable) 。 意 料 之 内 的 模式 也 可 能 是 有 趣 的 ， 如 果 它 
们 证 实 了 用 户 希 望 证 实 的 假设 ,或 与 用 户 的 预感 相似 。 

第 二 个 问题 一 一 “数据 控 气 系统 能 够 产生 所 有 有 趣 的 模式 吗 ?” 涉及 数据 挖掘 算法 
的 完全 性 。 期 望 数 据 挖掘 系统 产生 所 有 可 能 的 模式 通常 是 不 现实 的 和 低 效 的 。 实 际 上 ， 应 当 
根据 用 户 提供 的 约束 和 兴趣 度 度 量 对 搜索 聚焦 。 对 于 某 些 挖掘 任务 〈 如 关联 ) 而 言 ， 通 常 
能 够 确保 算法 的 完全 性 。 关 联 规则 挖掘 就 是 一 个 例子 ， 它 使 用 约束 和 兴趣 度 度量 可 以 确保 控 
掘 的 完全 性 。 其 中 所 涉及 的 方法 将 在 第 6 章 详细 考察 。 

最 后 ， 第 三 个 问题 一 “数据 挖 气 系 统 能 够 仅 产 生 有 趣 的 模式 吗 ?” 一 一 是 数据 挖掘 的 
优化 问题 。 对 于 数据 挖掘 系统 ， 仅 产生 有 趣 的 模式 是 非常 期 望 的 。 这 对 于 用 户 和 数据 挖掘 系 
统 都 更 加 有 效 ， 因 为 这 样 就 不 需要 搜 遍 所 产生 的 模式 来 识别 真正 有 趣 的 模式 。 在 这 方面 已 经 
有 了 一 些 进展 。 然 而 ， 在 数据 挖 所 中， 这 种 优化 仍然 是 个 挑战 。 

为 了 有 效 地 发 现 对 于 给 定 用 户 有 价值 的 模式 ， 模 式 兴 趣 度 度量 是 不 可 或 缺 的 。 这 种 度量 
可 以 在 数据 挖掘 之 后 使 用 ， 根 据 模式 的 兴趣 度 对 所 发 现 的 模式 进行 排 位 ， 过 滤 掉 那些 不 感 兴 
趣 的 模式 。 更 重要 的 是 ， 这 种 度量 可 以 用 来 指导 和 约束 发 现 过 程 ， 通 过 剪 去 模式 空间 中 不 满 
足 预 先 设 定 的 兴趣 度 约束 的 子 集 ， 提 高 搜索 性 能 。 这 种 基于 约束 的 挖掘 在 第 7 章 (关于 模式 
发 现 ) 和 第 11 (RFRA) 介绍 。 

对 于 每 类 可 挖掘 的 模式 ， 评 估 兴 趣 度 并 使 用 它们 改善 数据 挖掘 的 有 效 性 的 方法 将 在 全 书 
加 以 讨论 。 


1.5 使 用 什么 技术 


作为 一 个 应 用 驱动 的 领域 ， 数 据 挖掘 吸 纳 了 诸如 统计 学 、 机 器 学 习 、 模 式 识别 、 数 据 库 
和 数据 仓库 、 信 息 检 索 、 可 视 化 、 算 法 、 高 性 能 计算 和 许多 应 用 领域 的 大 量 技术 CW 
图 1. 11) 。 数 据 挖掘 研究 与 开发 的 边缘 学 科 特 性 极 大 地 促进 了 数据 控 掘 的 成 功 和 广泛 应 用 。 
本 节 我 们 给 出 一 些 对 数据 挖掘 方法 的 发 展 具有 重要 影响 的 学 科 例 子 。 








图 1.11 数据 挖掘 从 其 他 许多 领域 吸纳 技术 


1.5.1 统计 学 
统计 学 研究 数据 的 收集 、 分 析 、 解 释 和 表示 。 数 据 挖掘 与 统计 学 具有 天 然 联系 。 
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统计 模型 是 一 组 数学 函数 ， 它 们 用 随机 变量 及 其 概率 分 布 刻画 目标 类 对 象 的 行为 。 统 计 
模型 广泛 用 于 对 数据 和 数据 类 建 模 。 例 如 ， 在 像 数据 特征 化 和 分 类 这 样 的 数据 挖掘 任务 中 ， 
可 以 建立 目标 类 的 统计 模型 。 换 言 之 ， 这 种 统计 模型 可 以 是 数据 挖掘 任务 的 结果 。 反 过 来 ， 
数据 挖掘 任务 也 可 以 建立 在 统计 模型 之 上 。 例 如 ， 我 们 可 以 使 用 统计 模型 对 噪声 和 缺失 的 数 
据 值 建 模 。 于 是 ， 在 大 数据 集中 挖掘 模式 时 ， 数 据 挖掘 过 程 可 以 使 用 该 模型 来 帮助 识别 数据 
中 的 噪声 和 缺失 值 。 

统计 学 研究 开发 一 些 使 用 数据 和 统计 模型 进行 预测 和 预报 的 工具 。 统 计 学 方法 可 以 用 来 
汇总 或 描述 数据 集 。 数 据 的 基本 统计 描述 在 第 2 章 介绍 。 对 于 从 数据 中 挖掘 各 种 模式 ， 以 及 
理解 产生 和 影响 这 些 模式 的 潜在 机 制 ， 统 计 学 是 有 用 的 。 推 理 统计 学 〈 或 预测 统计 学 ) 用 
某 种 方式 对 数据 建 模 ， 解 释 观 测 中 的 随机 性 和 确定 性 ， 并 用 来 提取 关于 所 考察 的 过 程 或 总 体 
的 结论 。 

统计 学 方法 也 可 以 用 来 验证 数据 控 气 结果 。 例 如 ， 建 立 分 类 或 预测 模型 之 后 ， 应 该 使 用 
统计 假设 检验 来 验证 模型 。 统 计 假设 检验 (有 时 称 做 证 实数 据 分 析 ) 使 用 实验 数据 进行 统 
计 判 次 。 如 果 结 果 不 大 可 能 随机 出 现 ， 则 称 它 为 统计 显著 的 。 如 果 分 类 或 预测 模型 有 效 ， 则 
该 模型 的 描述 统计 量 将 增强 模型 的 可 靠 性 。 

在 数据 挖掘 中 使 用 统计 学 方法 并 不 简单 。 通 常 ， 一 个 巨大 的 挑战 是 如 何 把 统计 学 方法 用 
于 大 型 数据 集 。 许 多 统计 学 方法 都 具有 很 高 的 计算 复杂 度 。 当 这 些 方法 应 用 于 分 布 在 多 个 逻 
辑 或 物理 站 点 上 的 大 型 数据 集 时 ， 应 该 小 心地 设计 和 调整 算法 ， 以 降低 计算 开销 。 对 于 联机 
应 用 而 言 ， 如 Web 搜索 引擎 中 的 联机 查询 建议 ， 数 据 挖 据 必 须 连 续 处 理 快速 、 实 时 的 数据 
流 ， 这 种 挑战 变 得 更 加 难以 应 对 。 


1.5.2 ”机 器 学 习 


机 器 学 习 考 察 计算 机 如 何 基 于 数据 学 习 〈 或 提高 它们 的 性 能 ) 。 其 主要 研究 领域 之 一 
是 ， 计 算 机 程序 基于 数据 自动 地 学 习 识别 复杂 的 模式 ， 并 做 出 智能 的 决断 。 例 如 ， 一 个 典型 
的 机 器 学 习 问题 是 为 计算 机 编制 程序 ， 使 之 从 一 组 实例 学 习 之 后 ， 能 够 自动 地 识别 邮件 上 的 
手写 体 邮 政 编码 。 

机 器 学 习 是 一 个 快速 成 长 的 学 科 。 这 里 ， 我 们 介绍 一 些 与 数据 挖掘 高 度 相关 的 、 经 典 的 
机 器 学 习 问 题 。 

。 监督 学 习 (supervised leaming) 基本 上 是 分 类 的 同义词 。 学 习 中 的 监督 来 自 训练 数 

据 集中 标记 的 实例 。 例 如 ， 在 邮政 编码 识别 问题 中 ， 一 组 手写 邮政 编码 图 像 与 其 对 
应 的 机 器 可 读 的 转换 物 用 做 训练 实例 ， 监 督 分 类 模型 的 学 习 。 

。 无 监督 学 习 (unsupervised leaning) 本 质 上 是 聚 类 的 同义词 。 学 习 过 程 是 无 监督 的 ， 
因为 输入 实例 没有 类 标记 。 典 型 地 ， 我 们 可 以 使 用 聚 类 发 现 数据 中 的 类 。 例 如 ， 一 
个 无 监督 学 习 方 法 可 以 取 一 个 手写 数字 图 像 集合 作为 输入 。 假 设 它 找 出 了 10 个 数据 
Be, 这 些 簇 可 以 分 别 对 应 于 0 ~9 这 10 个 不 同 的 数字 。 然 而 ， 由 于 训练 数据 并 无 标 
记 ， 因 此 学 习 到 的 模型 并 不 能 告诉 我 们 所 发 现 的 簇 的 语义 。 

© 半 监 督学 习 (semi-supervised learning) 是 一 类 机 器 学 习 技 术 ， 在 学 习 模型 时 ， 它 使 
用 标记 的 和 未 标记 的 实例 。 在 一 种 方法 中 ， 标 记 的 实例 用 来 学 习 类 模型 ， 而 未 标记 
的 实例 用 来 进一步 改进 类 边界 。 对 于 两 类 问题 ， 我 们 可 以 把 属于 一 个 类 的 实例 看 做 
正 实例 ， 而 属于 另 一 个 类 的 实例 为 负 实 例 。 在 图 1. 12 中 ， 如 果 我 们 不 考虑 未 标记 的 
实例 ， 则 虚线 是 分 隔 正 实 例 和 负 实 例 的 最 佳 决策 边界 。 使 用 未 标记 的 实例 ， 我 们 可 
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以 把 该 决策 边界 改进 为 实 线 边 界 。 此 外 ， 我 们 能 够 检测 出 右上 角 的 两 个 正 实例 可 能 
是 噪声 或 离 群 点 ， 尽 管 它们 被 标记 了 。 
© 主动 学 习 (active learning) 是 一 种 机 器 学 习 方 法 ， 它 让 用 户 在 学 习 过 程 中 扮演 主动 
角色 。 主 动 学 习 方 法 可 能 要 求 用 户 〈 例 如 领域 专家 ) 对 一 个 可 能 来 自 未 标记 的 实例 
集 或 由 学 习 程 序 合成 的 实例 进行 标记 。 给 定 可 以 要 求 标记 的 实例 数量 的 约束 ， 目 的 
是 通过 主动 地 从 用 户 获 取 知 识 来 提高 模型 质量 。 
你 可 能 已 经 看 出 ， 数 据 挖掘 与 机 器 学 习 有 许多 相似 之 处 。 对 于 分 类 和 聚 类 任务 ， 机 器 学 
习 研 究 通常 关注 模型 的 准确 率 。 除 准确 率 之 外 ， 数 据 挖掘 研究 非常 强调 挖掘 方法 在 大 型 数据 
集 上 的 有 效 性 和 可 伸缩 性 ， 以 及 处 理 复 杂 数 据 类 型 的 办 法 ， 开 发 新 的 、 非 传统 的 方法 。 


D 噪声 / 离 群 点 
PD 





D 正 实例 ---- 不 会 未 标记 实例 的 决策 边界 
O 负 实 例 一 一 包含 未 标记 实例 的 决策 边界 
O 未 标记 实例 


图 1.12 半 监 督学 习 


1. 5.3 数据 库 系统 与 数据 仓库 


数据 库 系统 研究 关注 为 单位 和 最 终 用 户 创建 、 维 护 和 使 用 数据 库 。 特 别 是 ， 数 据 库 系统 
研究 者 们 已 经 建立 了 数据 建 模 、 查 询 语言 、 查 询 处 理 与 优化 方法 、 数 据 存储 以 及 索引 和 存 取 
方法 的 公认 原则 。 数 据 库 系统 因 其 在 处 理 非常 大 的 、 相 对 结构 化 的 数据 集 方面 的 高 度 可 伸缩 
性 而 闻名 。 

许多 数据 挖掘 任务 都 需要 处 理 大 型 数据 集 ， 甚 至 是 处 理 实时 的 快速 流 数 据 。 因 此 ， 数 据 
挖 扎 可 以 很 好 地 利用 可 伸缩 的 数据 库 技术 ,以便 获 得 在 大 型 数据 集 上 的 高 效率 和 可 伸缩 性 。 
此 外 ， 数 据 挖掘 任务 也 可 以 用 来 扩充 已 有 数据 库 系 统 的 能 力 ， 以 便 满 足 高 端 用 户 复杂 的 数据 
分 析 需 求 。 

新 的 数据 库 系统 使 用 数据 仓库 和 数据 挖掘 机 制 ， 已 经 在 数据 库 的 数据 上 建立 了 系统 的 数 
据 分 析 能 力 。 数 据 仓库 集成 来 自 多 种 数据 源 和 各 个 时 间 段 的 数据 。 它 在 多 维 空间 合并 数据 ， 
形成 部 分 物化 的 数据 立方 体 。 数 据 立方 体 不 仅 有 利于 多 维 数据 库 的 OLAP， 而 且 推 动 了 多 维 
数据 挖掘 ( 见 1.3.2 节 )。 


1.5.4 信息 检索 

信息 检索 (IR)〉 是 搜索 文档 或 文档 中 信息 的 科学 。 文 档 可 以 是 文本 或 多 媒体 ， 并 且 可 
能 驻 留 在 Web 上。 传统 的 信息 检索 与 数据 库 系 统 之 间 的 差别 有 两 点 : 信息 检索 假定 所 搜索 
的 数据 是 无 结构 的 ; 信息 检索 查询 主要 用 关键 词 ， 没 有 复杂 的 结构 (不同 于 数据 库 系统 中 
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的 SQL 查询 ) 。 

信息 检索 的 典型 方法 采用 概率 模型 。 例 如 ， 文 本 文档 可 以 看 做 词 的 包 ， 即 出 现在 文档 中 
的 词 的 多 重 集 。 文 档 的 语言 模型 是 生成 文档 中 词 的 包 的 概率 密度 函数 。 两 个 文档 之 间 的 相似 
度 可 以 用 对 应 的 语言 模型 之 间 的 相似 性 度量 。 

此 外 ， 一 个 文本 文档 集 的 主题 可 以 用 词汇 表 上 的 概率 分 布 建 模 ， 称 做 主题 模型 。 一 个 文 
本 文档 可 以 涉及 多 个 主题 ， 可 以 看 做 多 主题 混合 模型 。 通 过 集成 信息 检索 模型 和 数据 挖掘 技 
术 ， 我 们 可 以 找 出 文档 集中 的 主要 主题 ， 对 集合 中 的 每 个 文档 ， 找 出 所 涉及 的 主要 主题 。 

由 于 Web 和 诸如 数字 图 书馆 、 数 字 政府 、 卫 生 保 健 系统 等 应 用 的 快速 增长 ， 大 量 文本 
和 多 媒体 数据 日 益 累积 并 且 可 以 联机 获得 。 它 们 的 有 效 搜索 和 分 析 对 数据 挖掘 提出 了 许多 挑 
战 性 问题 。 因 此 ， 文 本 挖掘 和 多 媒体 挖掘 与 信息 检索 方法 集成 ， 已 经 变 得 日 益 重要 。 


1.6 面向 什么 类 型 的 应 用 
哪里 有 数据 ， 哪 里 就 有 数据 挖掘 应 用 。 
作为 一 个 应 用 驱动 的 学 科 ， 数 据 挖掘 已 经 在 许多 应 用 中 获得 巨大 成 功 。 我 们 不 可 能 一 一 
枚 举 数据 挖掘 扮演 关键 角色 的 所 有 应 用 。 在 知识 密集 的 应 用 领域 ， 如 生物 信息 学 和 软件 工 
程 ， 数 据 挖掘 的 表现 更 需要 深信 处 理 ， 这 已 经 超出 本 书 的 范围 。 应 用 作为 数据 挖掘 研究 与 开 
发 的 主要 方面 ， 其 重要 性 不 言 而 喻 ,为 了 解释 这 一 点 ， 我 们 简略 讨论 两 个 数据 挖掘 非常 成 功 
和 流行 的 应 用 例子 : 商务 智能 和 搜索 引擎 。 


1.6.1 商务 智能 


对 于 商务 而 言 ， 较 好 地 理解 它 的 诸如 顾客 、 市 场 、 供 应 和 资源 以 及 竞争 对 手 等 商务 背景 
是 至 关 重 要 的 。 商 务 智 能 (BI) 技术 提供 商务 运作 的 历史 、 现 状 和 预测 视图 ， 例 子 包 括 报 
告 、 联 机 分 析 处 理 、 商 务 业 绩 管理 、 竞 争 情报 、 标 杆 管理 和 预测 分 析 。 

“商务 智能 有 多 么 重要 ?” 没 有 数据 挖掘 ， 许 多 工商 企业 都 不 能 进行 有 效 的 市 场 分 析 ， 
比较 类 似 产品 的 顾客 反馈 ， 发 现 其 竞争 对 手 的 优势 和 缺点 ， 留 住 具有 高 价值 的 顾客 ， 做 出 陪 
明 的 商务 决策 。 

显然 ， 数 据 挖 气 是 商务 智能 的 核心 。 商 务 智 能 的 联机 分 析 处 理工 具 依赖 于 数据 仓库 和 多 
维 数据 挖掘 。 分 类 和 预测 技术 是 商务 智能 预测 分 析 的 核心 ， 在 分 析 市 场 、 供 应 和 销售 方面 存 
在 许多 应 用 。 此 外 ， 在 客户 关系 管理 方面 ， 聚 类 起 主要 作用 ， 它 根据 顾客 的 相似 性 把 顾客 分 
组 。 使 用 特征 挖掘 技术 ， 可 以 更 好 地 理解 每 组 顾客 的 特征 ， 并 开发 定制 的 顾客 奖励 计划 。 


1.6.2 Web 搜索 引擎 


Web 搜索 引擎 是 一 种 专门 的 计算 机 服务 器 ， 在 Web 上 搜索 信息 。 通 常 ， 用 户 查询 的 搜 
索 结果 用 一 张 表 返 给 用 户 〈 有 时 称 做 采样 (hit) ) 。 采 样 可 以 包含 网 页 、 图 像 和 其 他 类 型 的 
文件 。 有 些 搜索 引擎 也 搜索 和 返回 公共 数据 库 中 的 数据 或 开放 的 目录 。 搜 索引 擎 不 同 于 网 络 
目录 ， 因 为 网 络 目录 是 人 工 编 辑 管理 的 ， 而 搜索 引擎 是 按 算 法 运行 的 ， 或 者 是 算法 和 人 工 输 
人 的 混合 

Web 搜索 引擎 本 质 上 是 大 型 数据 挖 所 应 应 用 。 搜 索引 擎 全 方位 地 使 用 各 种 数据 控 握 技术 ， 
包括 息 行 ”〈 例 如 ， 决 定 应 该 息 过 哪些 页 面 和 仆 行 频率 ) 、 索 引 ( 例如， 选择 被 索引 的 页 面 





O Web 爬行 程序 (crawler) 是 一 个 计算 机 程序 ， 它 系统 地 、 自 动 地 浏览 网 页 。 
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和 决定 构建 索引 的 范围 ) 和 搜索 〈 例 如 ， 确 定 如 何 排列 各 个 页 面 、 加 载 何 种 广告 、 如 何 把 
搜索 结果 个 性 化 或 使 之 “环境 敏感 ”) 。 

搜索 引擎 对 数据 挖掘 提出 了 巨大 挑战 。 首 先 ， 它 们 必须 处 理 大 量 并 且 不 断 增加 的 数据 。 
通常 ， 这 种 数据 不 可 能 使 用 一 台 或 几 台 机 器 处 理 。 搜 索引 擎 常常 需要 使 用 由 数 以 千 计 甚至 数 
以 万 计 的 计算 机 组 成 的 计算 机 云 ， 协 同 挖掘 海量 数据 。 把 数据 挖掘 方法 升级 到 计算 机 云 和 大 
型 分 布 数据 集 上 是 一 个 需要 进一步 研究 的 领域 。 

其 次 ，Web 搜索 引擎 通常 需要 处 理 在 线 数据 。 搜 索引 擎 也 许可 以 在 海量 数据 集 上 离线 
构建 模型 。 为 了 做 到 这 一 点 ， 它 可 以 构建 一 个 查询 分 类 器 ， 基 于 查询 主题 (Flin, BRA 
询 “apple” 是 指 检索 关于 水 果 的 信息 ， 还 是 关于 计算 机 品牌 的 信息 ) ， 把 搜索 查询 指派 到 预 
先 定义 的 类 别 。 无 论 模 型 是 否 是 离线 构建 的 ， 模 型 的 在 线 应 用 都 必须 足够 快 ， 以 便 回 答 实时 
用 户 查 询 。 

另 一 个 挑战 是 在 快速 增长 的 数据 流 上 维护 和 增 量 更 新 模型 。 例 如 ， 查 询 分 类 器 可 能 需要 
不 断 地 增 量 维护 ， 因 为 新 的 查询 不 断 出 现 ， 并 且 预 先 定义 的 类 别 和 数据 分 布 可 能 已 经 改变 。 
大 部 分 已 有 的 模型 训练 方法 都 是 离线 的 和 静态 的 ， 因 而 不 能 用 于 这 种 环境 。 

第 三 ，Web 搜索 引擎 常常 需要 处 理 出 现 次 数 不 多 的 查询 。 假 设 搜 索引 擎 想 要 提供 环境 
敏感 的 推荐 。 也 就 是 说 ， 当 用 户 提交 一 个 查询 时 ， 搜 索引 擎 试图 使 用 用 户 的 简况 和 他 的 查询 
历史 推断 查询 的 环境 ， 以 便 快速 地 返回 更 加 个 性 化 的 回答 。 然 而 ， 尽 管 整个 查询 数量 是 巨大 
的 ， 但 是 大 部 分 查询 都 只 是 提问 一 次 或 几 次 。 对 于 数据 挖掘 和 机 器 学 习 方 法 而 言 ， 这 种 严重 
倾斜 的 数据 都 是 一 个 挑战 。 


1.7 数据 挖掘 的 主要 问题 
生命 短暂 ， 但 艺术 长 存 。 一 一 Hippocrats 
数据 挖掘 是 一 个 动态 的 、 强 势 快速 扩展 的 领域 。 这 里 ， 我 们 简要 概述 数据 挖掘 研究 的 主 
要 问题 ， 把 它们 划分 成 五 组 : 挖掘 方法 、 用 户 交 互 、 有 效 性 与 可 伸缩 性 、 数据 类 型 的 多 样 
性 、 数 据 挖 气 与 社会 。 在 这 些 问 题 中 ， 许 多 问题 在 某 种 程度 上 已 经 解决 ， 并 且 现 在 被 看 做 数 
HEER 其 他 问题 仍 处 于 研究 阶段 。 这 些 问 题 将 继续 激励 数据 控 据 的 进一步 研究 与 
改进 。 


1.7.1 挖掘 方法 
精力 充沛 的 研究 者 们 已 经 开发 了 一 些 数据 控 气 方法， 涉及 新 的 知识 类 型 的 研究 LES 
间 挖 气 、 集 成 其 他 领域 的 方法 以 及 数据 对 象 之 间 语 义 捆 绑 的 考虑 。 此 外 ， 挖 气 方 法 应 该 考虑 
诸如 数据 的 不 确定 性 、 噪 声 和 不 完全 性 等 问题 。 有 些 数据 控 据 方法 探索 如 何 使 用 用 户 指定 的 
度量 评估 所 发 现 的 模式 的 兴趣 度 ， 同 时 指导 挖掘 过 程 。 让 我 们 来 考察 数据 控 据 方法 的 这 些 
方面 。 
© MESH MMO RAD, 数据 挖掘 广泛 涵盖 数据 分 析 和 知识 发 现 的 任务 ， 从 数据 特 
征 化 与 区 分 到 关联 与 相关 性 分 析 、 分 类 、 回 归 、 聚 类 、 离 群 点 分 析 、 序 列 分 析 以 及 
趋势 和 演变 分 析 。 这 些 任务 可 能 以 不 同 的 方式 使 用 相同 的 数据 库 ， 并 需要 开发 大 量 
数据 挖掘 技术 。 由 于 应 用 的 多 样 性 ， 新 的 数据 挖掘 任 务 持续 出 现 ， 使 得 数据 挖掘 成 
为 动态 、 快 速成 长 的 领域 。 例 如 ， 对 于 信息 网 络 的 有 效 知识 发 现 而 言 ， 集 成 聚 类 和 
排 位 可 能 导致 大 型 网 络 中 的 高 质量 聚 类 和 对 象 排 位 。 
© 挖 气 多 维 空间 中 的 知识 : 在 大 型 数据 集中 搜索 知识 时 ， 我 们 可 能 探索 多 维 空间 中 的 
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数据 。 也 就 是 说 ， 我 们 可 能 在 不 同 抽象 层 的 多 维 (属性 ) 组 合 中 搜索 有 趣 的 模式 。 
这 种 挖 据 称 做 (探索 式 ) 多 维 数据 挖 振 。 在 许多 情况 下 ， 可 以 聚集 数据 ,或 把 数据 
看 做 多 维 数据 立方 体 。 在 数据 立方 体 空 间 中 挖掘 知识 可 以 显著 地 提高 数据 挖掘 的 能 
力 和 灵活 性 。 

数据 挖 气 一 一 跨 学 科 的 努力 : 通过 集成 来 自 多 学 科 的 新 方法 可 以 显著 增强 数据 挖掘 
的 能 力 。 例 如 ， 为 了 挖掘 自然 语言 文本 数据 ， 把 数据 挖掘 方法 与 信息 检索 和 自然 语 
言 处 理 的 方法 融合 在 一 起 是 明智 之 举 。 责 比如 大 型 程序 中 的 软件 故障 挖 据 一 一 这 种 
形式 的 挖掘 称 做 故 摩 控 报 ， 就 得 益 于 把 软件 工程 知识 结合 到 数据 挖掘 过 程 中 。 
提升 网 络 环境 下 的 发 现 能 力 : 大 部 分 数据 对 象 驻 留 在 链接 或 互 连 的 环境 中 ， 无 论 是 
Web 、 数 据 库 关系 、 文 件 还 是 文档 。 多 个 数据 对 象 之 间 的 语义 链接 可 以 用 来 促进 数 
据 的 挖 据 。 一 个 数据 集中 导出 的 知识 可 以 用 来 提升 “相关 ”或 语义 连接 的 对 象 集中 
的 知识 发 现 。 A 

处 理 不 确定 性 、 品 声 或 不 完全 数据 : 数据 常常 包含 噪声 、 错 误 、 蜡 常 、 不 确定 性 ， 
或 者 是 不 完全 的 。 错 误 和 噪声 可 能 干扰 数据 挖 据 过 程 ， 导 致 错误 的 模式 出 现 。 数 据 
清理 、 数 据 预 处 理 、 离 群 点 检测 与 删除 以 及 不 确定 推理 都 是 需要 与 数据 挖掘 过 程 集 
成 的 技术 。 

模式 评估 和 横 式 或 约束 指导 的 挖掘: 数据 控 据 过程 产生 的 所 有 模式 并 非 都 是 有 趣 的 。 
认定 哪些 模式 有 趣 可 能 因 用 户 而 异 。 因 此 ， 需 要 一 种 技术 来 评估 基于 主观 度量 所 发 
现 的 模式 的 兴趣 度 。 这 种 评估 关于 给 定 用 户 类 ， 基 于 用 户 的 确信 或 期 望 ， 评 佑 模式 
的 价值 。 此 外 ， 通 过 使 用 兴趣 度 度量 或 用 户 指 定 的 约束 指导 发 现 过 程 ， 可 以 产生 更 
有 趣 的 模式 ， 压 缩 搜索 空间 。 





1.7.2 用 户 界面 


用 户 在 数据 挖 抉 过程 中 扮演 重要 角色 。 有 趣 的 研究 领域 包括 如 何 与 数据 挖 振 系 统 交互 ， 
如 何在 挖掘 中 融入 用 户 的 背景 知识 ， 以 及 如 何 可 视 化 和 理解 数据 挖 所 的 结果 。 下 面 ， 我 们 分 
INST EB IX LAK. 

° RAK: 数据 挖掘 过 程 应 该 是 高 度 交 互 的 。 因 此 ， 重 要 的 是 构建 灵活 的 用 户 界面 


和 探索 式 控 气 环境， 以 便 用 户 与 系统 交互 。 用 户 可 能 先 看 到 数据 集 的 一 个 实例 ， 控 
查 数据 的 一 般 特 征 ， 并 评估 可 能 的 挖 气 结 果 。 交 屯 式 挖掘 允许 用 户 在 挖 据 过 程 中 动 
态 地 改变 搜索 的 育 焦 点 ， 根 据 返回 的 结果 提炼 挖掘 请 求 ， 并 在 数据 和 知识 空间 交互 
地 进行 下 钻 、 切 块 和 旋转 ， 动 态 地 探索 “立方 体 空 间 ”。 

结合 背景 知识 : 应 当 把 背景 知识 、 约 束 、 规 则 和 关于 所 研究 领域 的 其 他 信息 结合 到 
发 现 过 程 中 。 这 些 知识 可 以 用 于 模式 评估 ， 指 引 搜 索 有 趣 的 模式 。 

特定 的 数据 挖掘 和 数据 挖 气 查 询 语 言 ， 查 询 语言 (如 SQL) 在 灵活 的 搜索 中 扮演 了 
重要 角色 ， 因 为 它 允 许 用 户 提出 特定 的 查询 。 类 似 地 ， 高 级 数据 挖 扎 查询 语言 或 其 
他 高 层 灵活 的 用 户 界面 将 给 用 户 很 大 自由 度 来 定义 特定 的 数据 挖掘 任务 。 这 种 语言 
应 该 便于 说 明 分 析 任务 的 相关 数据 集 、 领 域 知识 、 所 挖掘 的 知识 类 型 、 被 发 现 的 模 
式 必须 满足 的 条 件 和 约束 。 这 种 灵活 的 挖 据 请 求 处 理 的 优化 是 另 一 个 充满 希望 的 研 
究 领 域 。 

数据 控 振 结果 的 表示 和 可 视 化 :数据 挖 抉 系统 如 何 生动 、 灵 活 地 提供 数据 挖 气 结果 ， 
使 得 所 发 现 的 知识 容易 理解 ， 能 够 直接 被 人 们 使 用 ?如果 数 据 挖掘 系统 是 交互 的 ， 
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这 一 点 尤其 重要 。 这 要 求 系统 采用 有 表达 能 力 的 知识 表示 ， 以 及 用 户 友 好 的 界面 和 
可 视 化 技术 。 


1.7.3 ”有效 性 和 可 伸缩 性 

在 比较 数据 挖掘 算法 时 ， 总 是 需要 考虑 有 效 性 与 可 伸缩 性 。 随 着 数据 量 持 续 增 加 ， 这 两 
个 因素 尤其 重要 。 

© 数据 挖 握 算 法 的 有 效 性 和 可 伸缩 性 : 为 了 有 效 地 从 多 个 数据 库 或 动态 数据 流 的 海量 

数据 中 提取 信息 ， 数 据 挖掘 算法 必须 是 有 效 的 和 可 伸缩 的 。 换 句 话说 ， 数 据 挖掘 算 
法 的 运行 时 间 必 须 是 可 预计 的 、 短 的 和 可 以 被 应 用 接受 的 。 有 效 性 、 可 伸缩 性 、 性 
能 、 优 化 以 及 实时 运行 能 力 是 驱动 许多 数据 挖掘 新 算法 开发 的 关键 标准 。 

© 并 行 、 分 布 式 和 增 量 挖 气 算 法 : 许多 数据 集 的 巨大 容量 、 数 据 的 广泛 分 布 和 一 些 数 

据 挖 掘 算法 的 计算 复杂 性 是 促使 开发 并 行 和 分 布 式 数据 密集 型 挖 据 算 法 的 因素 。 这 
种 算法 首先 把 数据 划分 成 若干 “片段 ” ， 每 个 片段 并 行 处 理 ， 搜 索 模式 。 并 行 处 理 
可 以 交互 ,来自 每 部 分 的 模式 最 终 合并 在 一 起 。 

云 计算 和 集群 计算 使 用 分 布 和 协同 的 计算 机 处 理 超大 规模 计算 任务 ， 它们 也 是 并 行 数据 
挖掘 研究 的 活 牙 主题 。 此 外 ， 有 些 数据 挖掘 过 程 的 高 开销 和 输入 的 增 量 特点 推动 了 增 量 数据 
挖掘 。 增 量 挖掘 与 新 的 数据 更 新 结合 在 一 起 ， 而 不 必 “ 从 头 开始 ”挖掘 全 部 数据 。 这 种 算 
法 增 量 地 进行 知识 修改 ， 修 正和 加 强 先 前 业已 发 现 的 知识 。 


1.7.4 数据 库 类 型 的 多 样 性 


数据 库 类 型 的 多 样 性 为 数据 挖 据 带 来 了 一 些 挑战 ， 这 些 挑战 包括 ; 

o 处 理 复杂 的 数据 类 型 : 多 样 化 的 应 用 产生 了 形形色色 的 新 数据 集 ， 从 诸如 关系 数据 
库 和 数据 仓库 数据 这 样 的 结构 化 数据 到 半 结 构 化 数据 和 无 结构 数据 ， 从 静态 的 数据 
库 到 动态 的 数据 流 ， 从 简单 的 数据 对 象 到 时 间 数 据 、 生 物 序 列 数据 、 传 感 器 数据 、 
空间 数据 、 超 文本 数据 、 多 媒体 数据 、 软 件 程序 代码 、Web 数据 和 社会 网 络 数 据 。 
由 于 数据 类 型 的 多 样 性 和 数据 挖 据 的 目标 不 同 ， 期 望 一 个 系统 挖掘 所 有 类 型 的 数据 
是 不 现实 的 。 为 了 深入 挖掘 特定 类 型 的 数据 ， 目 前 正在 构建 面向 领域 或 应 用 的 数据 
挖掘 系统 。 为 多 种 多 样 的 应 用 构建 有 效 的 数据 挖掘 工具 仍然 是 一 个 挑战 ， 并 且 是 活 
FRAT IE RR. 

e 挖 气动 态 的 、 网 络 的 、 全 球 的 数据 库 : 众多 数据 源 被 国际 互联 网 和 各 种 网 络 连接 在 
一 起 ,形成 了 一 个 庞大 的 、 分 布 的 和 蜡 构 的 全 球 信息 系统 和 网 络 。 从 具有 不 同 数据 
语义 的 结构 化 的 、 半 结构 化 的 和 非 结 构 化 的 不 同 数据 源 发 现 知识 ， 对 数据 挖掘 提出 
了 巨大 挑战 。 与 从 孤立 的 数据 库 的 小 数据 集 可 以 发 现 的 知识 相 比 ， 挖 气 这 种 庞大 的 、 
互 连 的 信息 网 络 可 能 帮助 在 异种 数据 集中 发 现 更 多 的 模式 和 知识 。 互 联网 挖 据 、 多 
源 数 据 挖 气 和 信息 网 络 挖掘 已 经 成 为 数据 挖掘 的 一 个 非常 具有 挑战 性 和 快速 发 展 的 
领域 。 


1.7.5 数据 挖掘 与 社会 
数据 挖掘 对 社会 有 何 影 响 ? 数据 挖 据 可 以 采取 什么 步骤 来 保护 个 人 降 私 ? 我 们 可 以 其 至 


不 知道 在 做 什么 ， 而 在 日 常生 活 中 使 用 数据 挖掘 吗 ? 这 些 问题 提出 了 以 下 议题 
。 数据 挖 气 的 社会 影响 : 由 于 数据 挖掘 渗透 到 我 们 的 日 常生 活 ， 因 此 研究 数据 挖掘 对 
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1.8 


社会 的 影响 是 重要 的 。 怎 样 使 用 数据 挖 据 技术 才能 有 益 于 社会 ?怎么 才能 防止 它 被 
滥用 ? 数据 的 不 适当 披露 和 使 用 、 个 人 隐私 和 数据 保护 权 的 潜在 违反 都 是 需要 关注 
的 研究 领域 。 


e 保护 隐私 的 数据 挖掘: 数据 挖掘 将 帮助 科学 发 现 、 商 务 管理 、 经 济 恢复 和 安全 保护 


(如 入 侵 计算 机 攻击 的 实时 发 现 ) 。 然 而 ， 它 也 带 来 了 泄露 个 人 信息 的 风险 。 保 护 隐 
私 的 数据 发 布 和 数据 挖掘 的 研究 正在 进行 ， 其 宗旨 是 在 进行 成 功 的 数据 挖掘 的 同时 ， 
注意 数据 的 敏感 性 ， 保 护 人 们 的 隐私 。 


© AG ARB: 我 们 不 可 能 期 望 社会 上 的 每 个 人 都 学 习 和 掌握 数据 挖 握 技 术 。 越 


来 越 多 的 系统 将 把 数据 挖掘 功能 构建 其 中 ， 使 得 人 们 不 需要 数据 控 据 算法 的 任何 知 
识 ， 只 需要 简单 地 点 击 鼠 标 就 能 进行 数据 挖掘 或 使 用 数据 挖掘 结果 。 智 能 搜索 引擎 
和 基于 国际 互联 网 的 商店 都 在 进行 这 种 无 形 的 数据 挖 气 ， 把 数据 挖掘 合并 到 它们 的 
组 件 中 ， 提 高 其 功能 和 性 能 。 这 些 在 做 的 事情 用 户 通常 并 不 知晓 。 例 如 ， 在 线 购 买 
商品 时 ， 用 户 可 能 并 未 察觉 商店 可 能 正在 收集 顾客 的 购买 模式 数据 ， 这 些 可 能 用 来 
为 将 来 的 购物 推荐 其 他 商品 。 


这 些 问题 和 一 些 涉及 数据 挖掘 研究 、 开 发 和 应 用 的 其 他 问题 将 在 全 书 讨论 。 


小 结 


需要 是 发 明之 母 。 随 着 每 个 应 用 中 的 数据 的 急剧 增长 ， 数 据 挖掘 迎合 了 当今 社会 对 有 效 的 、 可 伸缩 
的 和 灵活 的 数据 分 析 的 迫切 需要 。 数 据 挖 扎 可 以 看 做 信息 技术 的 自然 进化 ， 是 一 些 相 关 学 科 和 应 用 
领域 的 交汇 点 。 

数据 挖 握 是 从 海量 数据 中 发 现 有 趣 模式 的 过 程 。 作 为 知识 发 现 过 程 ， 它 通常 包括 数据 清理 、 数 据 集 
成 、 数 据 选择 、 数 据 变换 、 模 式 发 现 、 模 式 评估 和 知识 表示 。 

一 个 模式 是 有 趣 的 ， 如 果 它 在 某 种 确信 和 度 上 对 于 检验 数据 是 有 效 的 、 新 颖 的 、 潜 在 有 用 的 【〔 例 如 ， 
可 以 据 之 行动 ,或 者 验证 了 用 户 关注 的 某 种 预感 ) ， 并 且 易 于 被 人 理解 。 有 趣 的 模式 代表 知识 。 模 
式 兴趣 度 度量 ， 无 论 是 客观 的 还 是 主观 的 ， 都 可 以 用 来 指导 发 现 过 程 。 

我 们 提供 了 一 个 数据 挖掘 的 多 维 视图 。 主 要 的 维 是 数据 、 知 识 、 技 术 和 应 用 。 

只 要 数据 对 于 目标 应 用 是 有 意义 的 ， 数 据 挖掘 可 以 在 任何 类 型 的 数据 上 进行 ， 如 数据 库 数 据 、 数 据 
仓库 数据 、 事 务 数据 和 高 级 数据 类 型 等 。 高 级 数据 类 型 包括 时 间 相关 的 或 序列 数据 、 数 据 流 、 空 间 
和 时 空 数据 、 文 本 和 多 媒体 数据 、 图 和 网 络 数据 、Web 数据 。 

数据 仓库 是 一 种 用 于 长 期 存储 数据 的 仓库 ， 这 些 数 据 来 自 多 个 数据 源 ， 是 经 过 组 织 的 ， 以 便 支持 管 
理 决策 。 这 些 数据 在 一 种 统一 的 模式 下 存放 ， 并 且 通 常 是 汇总 的 。 数 据 仓库 提供 一 些 数据 分 析 能 
力 ， 称 做 联机 分 析 处 理 。 

多 维 数据 挖掘 (又 称 探索 式 多 维 数据 挖掘) 把 数据 挖掘 的 核心 技术 与 基于 OLAP 的 多 维 分 析 结合 
在 一 起 。 它 在 不 同 的 抽象 层 的 多 维 (属性 ) 组 合 中 搜索 有 趣 的 模式 ， 从 而 探索 多 维 数据 空间 。 
数据 挖 据 功 能 用 来 指定 数据 挖掘 任务 发 现 的 模式 或 知识 类 型 ， 包 括 特征 化 和 区 分 ， 频 繁 模式 、 关 联 
和 相关 性 挖掘， 分 类 和 回归 ， 聚 类 分 析 和 离 群 点 检测 。 随 着 新 的 数据 类 型 、 新 的 应 用 和 新 的 分 析 需 
求 的 不 断 出 现 ， 毫 无 疑问 ， 将 来 我 们 会 看 到 越 来 越 新 颖 的 数据 挖掘 任务 。 

作为 一 个 应 用 驱动 的 领域 ， 数 据 挖掘 融 汇 来 自 其 他 一 些 领域 的 技术 。 这 些 领 域 包括 统计 学 、 机 器 学 
习 、 数 据 库 和 数据 仓库 系统 ， 以 及 信息 检索 。 数 据 挖掘 研究 与 开发 的 多 学 科 特 点 大 大 促进 了 数据 挖 
掘 的 成 功 和 广泛 应 用 。 

数据 挖 气 有 许多 成 功 的 应 用 ， 如 商务 智能 、Web 搜索 、 生 物 信息 学 、 卫 生 保健 信息 学 、 金 融 、 数 字 
图 书馆 和 数字 政府 。 

数据 挖掘 研究 存在 许多 挑战 性 问题 。 领 域 包括 控 据 方 法、 用户 交互 、 有 效 性 与 可 伸缩 性 ， 以 及 处 理 
多 种 多 样 的 数据 类 型 。 数 据 挖 据 研 究 对 社会 具有 很 大 影响 ， 并 且 未 来 这 种 影响 将 继续 。 
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1.9 习题 
1.1 什么 是 数据 挖 拔 ? 在 你 的 回答 中 ， 强 调 以 下 问题 : 
(a) 它 是 又 一 种 广告 宣传 吗 ? 
(b) 它 是 一 种 从 数据 库 、 统 计 学 、 机 器 学 习 和 模式 识别 发 展 而 来 的 技术 的 简单 转换 或 应 用 吗 ? 
(o) 我 们 提出 了 一 种 观点 ， 说 数据 挖掘 是 数据 库 技 术 进化 的 结果 。 你 认为 数据 挖掘 也 是 机 器 学 习 研 
完 进 化 的 结果 吗 ? 你 能 基于 该 学 科 的 发 展 历史 提出 这 一 观点 吗 ? 针对 统计 学 和 模式 识别 领域 ， 
做 相同 的 事 。 
(d) 当 把 数据 挖掘 看 做 知识 发 现 过 程 时 ， 描 述 数据 挖掘 所 涉及 的 步 又 。 

1.2 数据 仓库 与 数据 库 有 何不 同 ? 它们 有 哪些 相似 之 处 ? 

L3 ”定义 下 列 数据 挖 扳 功 能 ; 特征 化 、 区 分 、 关 联 和 相关 性 分 析 、 分 类 、 回 归 、 聚 类 、 离 群 点 分 析 。 使 用 
你 熟悉 的 现实 生活 中 的 数据 库 ， 给 出 每 种 数据 挖 所 功能 的 例子 。 

1.4 给 出 一 个 例子 ， 其 中 数据 挖掘 对 于 工商 企业 的 成 功 是 至 关 重要 的 。 该 工商 企业 需要 什么 数据 挖 气功 能 
(例如 ， 考 虑 可 以 挖掘 何 种 类 型 的 模式 )? 这 种 模式 能 够 通过 简单 的 查询 处 理 或 统计 分 析 得 到 吗 ? 

1.5 解释 区 分 和 分 类 、 特 征 化 和 聚 类 、 分 类 和 回归 之 间 的 区 别 和 相似 之 处 。 

1.6 根据 你 的 观察 ， 描 述 一 个 可 能 的 知识 类 型 ， 它 需要 由 数据 挖掘 方法 发 现 ， 但 未 在 本 章 中 列 出 。 它 需要 
一 种 不 同 于 本 章 列举 的 数据 挖 气 技 术 吗 ? 

1.7 离 群 点 经 常 被 当做 噪声 丢弃 。 然 而 ， 一 个 人 的 垃圾 可 能 是 另 一 个 人 的 宝贝 。 例 如 ， 信 用 卡 交易 中 的 异 
常 可 能 帮助 我 们 检测 信用 卡 的 欺诈 使 用 。 以 欺诈 检测 为 例 ， 提 出 两 种 可 以 用 来 检测 离 群 点 的 方法 ， 并 
讨论 哪 种 方法 更 可 靠 。 

L8 ”描述 三 个 关于 数据 挖 握 方 法 和 用 户 交互 问题 的 数据 挖掘 挑战 。 

1.9 与 挖 据 少量 数据 (例如 ， 几 百 个 元 组 的 数据 集合 ) 相 比 ， 挖 掘 海量 数据 ( 例如 ， 数 十 亿 个 元 组 ) 的 
主要 挑战 是 什么 ? 

. 10 ”概述 在 诸如 流 /传感器 数据 分 析 、 时 空 数据 分 析 或 生物 信息 学 等 某 个 特定 应 用 领域 中 的 数据 挖掘 的 主 
要 挑战 ? 


1.10 ”文献 注释 


Piatetsky-Shapiro 和 Frawley 编辑 的 书 Knowledge Discovery in Databases | P-SFO1] 是 数据 中 知识 发 现 早期 
研究 论文 的 汇集 。Fayyad Piatetsky- Shapiro, Smyth 和 Uthurusamy 编辑 的 书 Advances in Knowledge Discovery 
and Data Mining[ FPSS*96] 是 知识 发 现 和 数据 挖掘 的 一 本 稍 后 研究 成 果 的 汇集 。 近 年 来 ,已 经 出 版 了 许多 
数据 挖 所 书籍 ， 包 插 Hastie, Tibshirani 和 Friedman 的 The Elements of Statistical Learning [ HTF09 ] Tan, 
Steinbach 和 Kumar 的 Introduction to Data Mining | TSKOS ] , Witten, Frank 和 Hall 的 Data Mining: Practical 
Machine Learning Tools and Techniques with Java Implementations[ WFH11], Weiss 和 Indurkhya 的 Predictive Data 
Mining[ W198], Berry 和 Linoff 的 Mastering Data Mining: The Art and Science of Customer Relationship Manage- 
ment[ BL99], Hand, Mannila 和 Smyth 的 Principles of Data Mining( Adaptive Computation and Machine Learning) 
[ HMSO1], Chakrabarti 的 Mining the Web: Discovering Knowledge from Hypertext Data[ Cha03a], Liu 的 Web Da- 
ta Mining: Exploring Hyperlinks, Contents, and Usage Data[ Liu06 ] Dunham 的 Data Mining: Introductory and 
Advanced Topics[ Dun03] VA Mitra 和 Acharya 的 Data Mining: Multimedia, Soft Computing, and Bioinformat- 
ics[ MAQ3 ] 。 

还 有 一 些 书包 含 知识 发 现 某 些 方面 的 论文 汇集 或 章节 ， 如 Dzeroski 和 Lavrac 编辑 的 Relational Data Min- 
ing[ DeO1], Cook 和 Holder 编辑 的 Mining Graph Data[ CHO7], Aggarwal 编辑 的 Data Streams; Models and Al- 
gorithms| Agg06 ] Kargupta, Han, Yu 等 编辑 的 Next Generation of Data Mining [ KHY* 08], Z. Zhang 和 
R. Zhang 编辑 的 Multimedia Data Mining; A Systematic Introduction to Concepts and Theory[ ZZ09] Miller 和 Han 
编辑 的 Geographic Data Mining and Knowledge Discovery[ MH09], VAX Yu, Han 和 Faloutsos 编辑 的 Link Min- 
ing: Models, Algorithms and Applications[ YHF10]。 在 数据 库 、 数 据 挖 据 、 机 器 学 习 、 统 计 学 和 Web 技术 的 
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主要 会 议 上 ， 还 有 大 量 讲稿 。 

KDnuggets 是 一 个 包含 知识 发 现 和 数据 控 气 有 关 信 息 的 定期 、 免 费 的 电子 通讯 ， 自 1991 年 以 来 一 直 由 
Piatetsky- Shapiro 主持 。KDNuggets 的 站 点 (www. kdnuggets. com) 包含 大 量 关 于 KDD 的 信息 。 

数据 挖掘 界 于 1995 年 开始 了 它 的 第 一 届 知 识 发 现 与 数据 挖掘 国际 学 术 会 议 。 该 会 议 是 由 1989 至 1994 
年 举行 的 4 次 数据 库 中 知识 发 现 国际 研讨 会 发 展 起 来 的 。ACM- SIGKDD 一 一 ACM 下 的 数据 库 中 知识 发 现 专 
业 委 员 会 于 1998 年 成 立 ， 并 且 自 1999 年 以 来 一 直 组 织 知识 发 现 与 数据 控 据 国际 会 议 。IEEE 计算 机 学 会 自 
2001 年 起 每 年 组 织 自己 的 数据 挖掘 会 议 一 数据 挖掘 国际 会 议 (ICDM) 。SIAM (工业 与 应 用 数学 学 会 ) 
自 2002 年 起 组 织 它 的 数据 挖 拨 年 会 一 一 SIAM 数据 控 气 会议 (SDM) 。 专 题 杂 志 Date Mining and Knowledge 
Discovery 自 1997 年 起 由 Kluwers 出 版 社 出 版 。ACM 的 杂志 ACM Transactions on Knowledge discovery from Data 
于 2007 年 出 版 了 它 的 第 1 卷 。 

ACM-SIGKDD 还 出 版 一 种 半年 刊 通讯 SIGKDD Exploraiions。 还 有 一 些 其 他 国际 或 地 区 性 数据 挖掘 会 议 
如 欧洲 机 器 学 习 与 数据 库 中 知识 发 现 原理 与 实践 会 议 (ECML PKDD ) ， 亚 太 知 识 发 现 与 数据 挖掘 会 议 
(PAKDD) 和 数据 仓库 与 知识 发 现 国际 会 议 (DaWaK ) 。 

数据 挖掘 研究 还 发 表 在 数据 库 、 统 计 学 、 机 器 学 习 和 数据 可 视 化 的 书籍 、 会 议和 杂志 上 。 这 些 文献 的 
参考 信息 在 下 面 列举 。 

数据 库 系统 的 流行 教科 书包 括 Garcia-Molina, Ullman 和 Widom 的 Database Systems; The Complete Book 
[GMUWO8 ] Ramakrishnan 和 Gehrke 的 Database Management Systems| RGO3], Silberschatz, Korth 和 Sudars- 
han 的 Database System Concepts[ SKSO2 ] , Ae Elmasri 和 Navathe 的 Fundamentals of Database Systems[ ENO3 ] 。 
关于 数据 库 系 统 原 创 性 文章 的 汇集 ， 见 Hellerstein 和 Stonebraker 编辑 的 Readings in Database Systems 
[ HS05 ] 。 

关于 数据 仓库 技术 、 系 统 和 应 用 有 许多 书籍 ， 如 Kimball 和 Ross 的 The Data Warehouse Toolkit. The 
Complete Guide to Dimensional Modeling[ KRO2], Kimball, Ross, Thornthwaite 和 Mundy 的 The Data Warehouse 
Lifecycle Toolkit[ KRTMO8], Imhoff, Galemmo 和 Geiger 的 Mastering Data Warehouse Design; Relational and Di- 
mensional Techniques[ IGGO3], ， 以 及 Inmon 的 Building the Data Warehouse[ Inm96 ] 。 一 组 关于 物化 视图 和 数据 
仓库 实现 的 研究 论文 收集 在 Gupta 和 Mumick 的 Materialized Views: Techniques, Implementations, and Applica- 
tions[ GM99] P, Chaudhuri 和 Dayal[ CD97] 提供 了 早期 数据 仓库 技术 的 全 面 综述 。 

涉及 数据 挖掘 和 数据 仓库 的 研究 结果 已 在 许多 数据 库 国际 学 术 会 议论 文集 中 发 表 ， 包括 ACM-SIGMOD 
数据 管理 国际 会 议 (SIGMOD) 、 超 大 型 数据 库 国际 会 议 (VLDB) 、ACM-SIGMOD-SIGART 数据 库 原理 研讨 
会 (PODS) 、 数 据 工程 国际 会 议 〈ICDE) 、 扩 展 数据 库 技 术 国 际会 议 (EDBT) 、 数 据 库 理论 国际 会 议 
(ICDT) 、 信 息 与 知识 管理 国际 会 议 (CIKM) 、 数 据 库 与 专家 系统 应 用 国际 会 议 (DEXA) 和 数据 库 系 统 高 
级 应 用 国际 研讨 会 (DASFAA) 。 数 据 挖掘 研究 也 发 表 在 主要 数据 库 杂 志 上 ， 如 包括 IEEE Transactions on 
Knowledge and Data Engineering( TKDE) , ACM Transactions on Database Systems( TODS) 、 Information Systems 、 
The VLDB Journal, Data and Knowledge Engineering. International Journal of Intelligent Information Systems( JIIS) 
和 Knowledge and Information Systems( KAIS) 。 

统计 学 家 已 经 开发 了 许多 有 效 的 数据 挖掘 方法 ， 并 编写 了 丰富 的 教科 书 。 从 统计 学 模式 识别 角度 看 待 
分 类 可 以 在 Duda, Hart 和 Stork 的 Pattern Classification[ DHS00] 中 找到 。 还 有 一 些 教 材 涵盖 了 回归 和 统计 
分 析 的 不 同 主题 ， 如 Bickel 和 Doksum 的 Mathematical Statistics: Basic Ideas and Selected Topics| BDO1 ] ，Ram- 
sey 和 Schafer 的 The Statistical Sleuth: A Course in Methods of Data Analysis[ RS01 ] , Neter, Kutner, Nachtsheim 
和 Wasserman 的 Applied Linear Statistical Models [ NKNW96], Dobson 的 An Introduction to Generalized Linear 
Models[ Dob90] , Shumway 的 Applied Statistical Time Series Analysis[ Shu88], ， 以 及 Johnson 和 Wichern 的 Applied 
Multivariate Statistical Analysis[ JW02 ] 。 

统计 学 研究 发 表 在 一 些 主要 的 统计 会 议 的 论文 集 上 ， 包 括 联合 统计 学 会 议 《Joint Statistical Meeting) , 
BRIT FEZ (International Conference of the Royal Statistical Society) ， 以 及 界面 研讨 会 计算 科学 
与 统计 《Symposium on the Interface: Computing Science and Statistics)。 其 他 刊物 包括 Journal of the Royal Sta- 
tistical Society, The Annals of Statistics. Journal of American Statistical Association ~ Technometrics 和 Biometrika, 


机 器 学 习 和 模式 识别 方面 的 教材 和 参考 书包 括 Mitchell 的 Machine Learning | Mit97 ] Bishop 的 Pattern 
Recognition and Machine Learning| Bis06 ] Theodoridis 和 Koutroumbas 的 Pattern Recognition[ TKO8 |, Alpaydin 
的 Introduction to Machine Learning [| Alp11], Koller 和 Friedman Probabilistic Graphical Models: Principles and 
Techniques| KFO9] 和 Marsland 的 Machine Learning; An Algorithmic Perspective[ Mar09 ] 。 关 于 机 器 学 习 原 创 性 
论文 的 汇集 ， 见 Michalski 等 编辑 的 Machine Learning, An Artifical Intelligence Approach, 1 ~ 4 卷 [ MCM83, 
MCM86, KM90, MT94] 和 .Shavlik 和 Dietterich 编辑 的 Readings in Machine Learning[ SD90] 。 

机 器 学 习 和 模式 识别 研究 发 表 在 一 些 主要 的 机 器 学 习 、 人 工 智 能 和 模式 识别 会 议论 文集 上 ， 包 括 机 器 
学 习 国际 会 议 (ML). ACM 计算 学 习 理论 会 议 〈COLT) 、IEEE 计算 机 视觉 与 模式 识别 会 议 (CVPR)、 模 
式 识 别 国际 会 议 〈ICPR) 、 人 工 智 能 联合 国际 会 议 (ICAI) 和 美国 人 工 智能 学 会 会 议 〈AAAI) 。 其 他 出 版 
物 包 括 主要 的 机 器 学 习 、 人 工 智能 、 模 式 识别 和 知识 系统 杂志 ， 其 中 有 些 上 面 已 经 提 到 。 其 余 的 包括 Ma- 
chine Learning( ML) , Pattern Recognition( PR) ~ Artificial Intelligence Journal( AI) | IEEE Transactions on Pattern 
Analysis and Machine Intelligence( PAMI) 和 Cognitive Science, 

信息 检索 方面 的 教科 书 和 参考 书包 括 Manning, Raghavan 和 Schutz 的 Introduction to Information Retrieval 
[MRSO8], Bttcher, Clarke 和 Cormack 的 Information Retrieval: implementing and Evaluating Search Engines 
[BCC10], Croft, Metzler 和 Strohman 的 Search Engines; Information Retrieval in Practice[ CMS09 ] Baeza- Yates 
和 Ribeiro- Neto 的 Modern Information Retrieval; The Concepts and T. echnology Behind Search | BYRN11], 以 及 
Grossman 和 Frieder 的 Information Retrieval, Algorithms and Heuristics[ GFO4 ] 。 

信息 检索 研究 发 表 在 一 些 信息 检索 和 Web 搜索 与 挖掘 会 议论 文集 上 ， 包 括 ACM-SICIR 信息 检索 研究 
与 开发 国际 会 议 〈(SIGIR) 、 万 维 网 国际 会 议 (WWW), ACM Web 搜索 与 数据 控 气 国际 会议 (WSDN)、 
ACM 信息 与 知识 管理 会 议 (CIKM) 、 欧 洲 信 息 检索 会 议 (ECIR) 、 文 本 检索 会 议 (TREC) 以 及 ACM 
IEEE 数字 图 书馆 联合 会 议 (JCDL) 。 其 他 出 版 物 包括 主要 的 信息 检索 、 信 息 系统 和 Web 杂志， 如 Journal 
of Information Retrieval, ACM Transactions on Information Systems( TOIS) 、Information Processing and Manage- 
ment, Knowledge and Information Systems( KAIS) 和 IEEE Transactions on Knowledge and Data Engineering ( TK- 
DE) 。 
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直接 跳 到 数据 挖掘 充满 了 诱惑 ， 但 是 ， 我 们 首先 需 要 准备 好 数据 。 这 涉及 仔细 考察 属性 
和 数据 值 。 现 实 世界 中 的 数据 一 般 有 噪声 、 数 量 庞大 (通常 数 兆 兆 字 节 或 更 多 ) 并 且 可 能 
来 自 异 种 数据 源 。 本 章 旨 在 熟悉 数据 。 对 于 数据 预 处 理 〈 见 第 3 章 ) ， 关 于 数据 的 知识 是 有 
用 的 。 数 据 预 处 理 是 数据 挖掘 过 程 的 第 一 个 主要 步骤。 本 章 ， 你 将 要 知道 ; 数据 由 什么 类 型 
的 属性 或 字段 组 成 ? 每 个 属性 具有 何 种 类 型 的 数据 值 ? 哪些 属性 是 离散 的 ， 哪 些 是 连续 值 
的 ? 数据 看 上 去 如 何 ? 值 如 何 分 布 ? 有 什么 方法 可 以 可 视 化 地 观察 数据 ， 以 便 更 好 地 理解 它 
吗 ? 能 够 看 出 离 群 点 吗 ? 可 以 度量 某 些 数据 对 象 与 其 他 数据 对 象 之 间 的 相似 性 吗 ? 洞察 数据 
将 有 助 于 其 后 的 分 析 。 

“那么 ,我 们 从 数据 中 学 习 什 么 会 有 助 于 数据 的 预 处 理 ?” 在 2.1 节 ， 我 们 从 研究 各 种 
属性 类 型 开始 ， 包 括 标 称 属性 、 二 元 属性 、 序 数 属性 和 数值 属性 。 基 本 的 统计 描述 可 以 用 来 
获得 关于 属性 值 的 更 多 知识 ， 如 2.2 节 所 述 。 例 如 ， 给 定 温度 属性 ， 我 们 可 以 确定 它 的 均值 
(平均 值 ) 、 中 位 数 〈 中间 值 ) 和 众 数 〈 最 常见 的 值 )。 这 些 都 是 中 心 趋势 度量 ,使 我 们 了 
解 分 布 的 “中 部 ”或 中 心 。 

关于 每 个 属性 的 这 种 基本 统计 量 的 知识 有 助 于 在 数据 预 处 理 时 填补 缺失 值 、 光 滑 噪 声 、 
识别 离 群 点 。 关 于 属性 和 属性 值 的 知识 也 有 助 于 解决 数据 集成 时 出 现 的 不 一 致 。 绘 制 中 心 趋 
势 的 图 形 可 以 向 我 们 显示 数据 是 对 称 的 还 是 倾斜 的 。 分 位 数 图 、 直 方 图 和 散 点 图 都 是 显示 基 
本 统计 描述 的 其 他 图 形 方法 。 这 些 在 数据 预 处 理 时 都 可 能 是 有 用 的 ， 并 且 提 供 对 控 据 区 域 的 
洞察 。 

数据 可 视 化 为 借助 于 图 形 观察 数据 提供 了 更 多 技术 。 这 些 可 以 帮助 我 们 识别 “隐藏 ” 
在 无 结构 数据 集中 的 关系 、 趋 势 和 偏差 。 这 些 技术 包括 从 简单 的 散 点 图 矩阵 〈 其 中 ， 两 个 
属性 被 映射 到 2D 网 格 ) ， 到 诸如 树 图 ( 其中， 基于 属性 值 显示 屏幕 的 层次 划分 ) 那样 的 复 
杂 方 法 。 数 据 可 视 化 技术 在 2. 3 节 介 绍 。 

最 后 ， 我 们 希望 考察 何 为 数据 对 象 的 相似 性 〈 或 相 异 性 ) 。 例 如 ， 假 设 我 们 有 一 个 数据 
库 ， 其 中 数据 对 象 是 患者 ， 用 他 们 的 症状 描述 。 我 们 可 能 希望 找 出 患者 之 间 的 相似 性 或 相 异 
性 。 这 种 信息 使 得 我 们 可 以 发 现 数据 集 中 类 似 患者 的 和 能。 数据 对 象 之 间 的 相似 性 / 相 异 性 也 
可 以 用 来 检测 数据 中 的 离 群 点 ， 或 进行 最 近邻 分 类 。( 聚 类 是 第 10 、11 章 的 主题 ， 而 最 近邻 
分 类 在 第 9 章 讨 论 。) 有 多 种 评估 相似 性 和 相 异 性 的 度量 。 这 种 度量 一 般 被 称 做 邻近 性 度量 。 
你 可 以 把 两 个 对 象 之 间 的 邻近 性 看 做 是 对 象 之 间距 离 的 函数 ， 尽 管 邻近 性 也 可 以 基于 概率 而 
不 是 基于 实际 距离 来 计算 。 数 据 邻 近 性 度量 在 2. 4 节 介 绍 。 

总 之 ， 本章 结束 时 ， 你 将 了 解 属性 的 不 同类 型 ， 以 及 描述 属性 数据 的 中 心 趋势 和 散布 的 
统计 度量 。 你 还 将 熟悉 对 属性 值 分 布 可 视 化 的 技术 ， 以 及 如 何 计算 对 象 之 间 的 相似 性 或 相 
异性 。 


2. 1 ”数据 对 象 与 属性 类 型 


数据 集 由 数据 对 象 组 成 。 一 个 数据 对 象 代表 一 个 实体 。 例 如 ， 在 销售 数据 库 中 ， 对 象 可 
以 是 顾客 、 商 品 或 销售 ; 在 医疗 数据 库 中 ， 对 象 可 以 是 患者 ; 在 大 学 的 数据 库 中 ， 对 象 可 以 
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是 学 生 、 教 授 和 课程 。 通 常 ， 数 据 对 象 用 属性 描述 。 数 据 对 象 又 称 样本 、 实 例 、 数 据点 或 对 
象 。 如 果 数 据 对 象 存放 在 数据 库 中 ， 则 它们 是 数据 元 组 。 也 就 是 说 ， 数 据 库 的 行 对 应 于 数据 
对 象 ， 而 列 对 应 于 属性 。 本 节 ， 我 们 定义 属性 ， 并 且 考 察 各 种 属性 类 型 。 


2. 1.1 什么 是 属性 

RIE (attribute) 是 一 个 数据 字段 ， 表 示 数 据 对 象 的 一 个 特征 。 在 文献 中 ， 属 性 、 维 
(dimension) 、 特 征 (feature) 和 变量 (variable) 可 以 互 换 地 使 用 。 术 语 “ 维 ”一 般 用 在 数 
据 仓库 中 。 机 器 学 习 文献 更 倾向 于 使 用 术语 “特征 ”， 而 统计 学 家 则 更 愿意 使 用 术语 “ 变 
前 " 。 数 据 挖 掘 和 数据 库 的 专业 人 士 一 般 使 用 术语 “属性 ”， 我 们 也 使 用 术语 “属性 ”。 例 
如 ， 描 述 顾 客 对 象 的 属性 可 能 包括 customer_ID, name 和 address。 给 定 属性 的 观测 值 称 做 观 
测 。 用 来 描述 一 个 给 定 对 象 的 一 组 属性 称 做 属性 向 量 (或 特征 向 量 ) 。 涉 及 一 个 属性 (ME 
E) 的 数据 分 布 称 做 单 变 量 的 (univariate)。 双 变量 (bivariate) 分 布 涉及 两 个 属性 ， 等 等 。 

一 个 属性 的 类 型 由 该 属性 可 能 具有 的 值 的 集合 决定 。 属 性 可 以 是 标 称 的 、 二 元 的 、 序 数 
的 或 数值 的 。 下 面 我 们 介绍 每 种 类 型 。 


2.1.2 标 称 属性 


标 称 意味 “与 名 称 相关 ”。 标 称 属性 (nominal attribute) 的 值 是 一 些 符号 或 事物 的 名 
称 。 每 个 值 代表 某 种 类 别 、 编 码 或 状态 ， 因 此 标 称 属性 又 被 看 做 是 分 类 的 (categorical) 。 这 
些 值 不 必 具 有 有 意义 的 序 。 在 计算 机 科学 中 ,这些 值 也 被 看 做 是 枚 举 的 ( enumeration) 。 

例 2.1 标 称 属性 。 假 设 hair_color (头发 颜色 ) 和 marital_status (婚姻 状况 ) 是 两 个 
描述 人 的 属性 。 在 我 们 的 应 用 中 ，hair_color 的 可 能 值 为 黑色 、 棕 色 、 淡 黄色 、 红 色 、 赤 说 
E. KENGE, JAYE marital_status 的 取 值 可 以 是 单身 、 已 婚 、 离 异 和 下 偶 。jpair_cotor 和 
marital_status 都 是 标 称 属性 。 标 称 属 性 的 另 一 个 例子 是 occupation (HAY), RAER., F 
医 、 程 序 员 、 农 民 等 。 a 

尽管 我 们 说 标 称 属性 的 值 是 一 些 符号 或 “事物 的 名 称 ”， 但 是 可 以 用 数 表示 这 些 符号 或 
名 称 。 例 如 对 于 hair_color， 我 们 可 以 指定 代码 0 表示 黑色 ，1 表示 棕色 ， 等 等 。 另 一 个 例子 
是 customer ID (顾客 号 ) ， 它 的 可 能 值 可 以 都 是 数值 。 然 而 ， 在 这 种 情况 下 ， 并 不 打算 定量 
地 使 用 这 些 数 。 也 就 是 说 ， 在 标 称 属性 之 上 ， 数 学 运算 没有 意义 。 与 从 一 个 年 龄 值 OXE, 
年 龄 是 数值 属性 ) 减 去 另 一 个 不 同 ， 从 一 个 顾客 号 减 去 另 一 个 顾客 号 毫 无 意义 。 尽 管 一 个 
标 称 属性 可 以 取 整 数值 ， 但 是 也 不 能 把 它 视 为 数值 属性 ， 因 为 并 不 打算 定量 地 使 用 这 些 整 
数 。 在 2.1.5 节 ， 我 们 将 更 详细 地 说 明 数 值 属性 。 

因为 标 称 属性 值 并 不 具有 有 意义 的 序 ， 并 且 不 是 定量 的 ， 因 此 ， 给 定 一 个 对 象 集 ， 找 出 
这 种 属性 的 均值 〈 平 均值 ) 或 中 位 数 (中 值 ) 没有 意义 。 然 而 ， 一 件 有 意义 的 事情 是 使 该 
属性 最 常 出 现 的 值 ， 这 个 值 称 为 众 数 〈mode) ， 是 一 种 中 心 趋势 度量 。 我 们 将 在 2. 2 节 介 绍 
中 心 趋势 度量 。 


2.1.3 二 元 属性 

二 元 属性 (binary attribute) 是 一 种 标 称 属性 ， 只 有 两 个 类 别 或 状态 : 0 或 1， 其 中 0 通 
常 表示 该 属性 不 出 现 ， 而 1 表示 出 现 。 二 元 属性 又 称 布尔 属性 ， 如 果 两 种 状态 对 应 于 true 和 
false 的 话 。 

例 2.2 ZERIE, MARTE smoker 描述 患者 对 象 ，!1 表示 患者 抽烟 ，0 表示 患者 不 抽 
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烟 。 类 似 地 ,假设 患者 进行 具有 两 种 可 能 结果 的 医学 化 验 。 属 性 medical_test 是 二 元 的 ， 其 
中 值 1 表示 患者 的 化 验 结果 为 阳性 ，0 表示 结果 为 阴性 。 | 

一 个 二 元 属性 是 对 称 的 ， 如 果 它 的 两 种 状态 具有 同等 价值 并 且 携 带 相同 的 权重 ; 即 ， 关 
于 哪个 结果 应 该 用 0 或 1 编码 并 无 偏好 。 这 样 的 例子 如 具有 男 和 女 这 两 种 状态 的 属性 gender 
(性 别 ) 。 

一 个 二 元 属性 是 韭 对 称 的 ， 如 果 其 状态 的 结果 不 是 同样 重要 的 ， 如 艾滋 病 病毒 (HIV) 
化 验 的 阳性 和 阴性 结果 。 为 方便 计 ， 我 们 将 用 1 对 最 重要 的 结果 (通常 是 稀有 的 ) 编码 
(例如 ，HIV 阳性 ) ， 而 另 一 个 用 0 编码 (例如 ，HIV 阴性 )。 


2.1.4 序数 属性 


序数 属性 (ordinal attribute) 是 一 种 属性 ， 其 可 能 的 值 之 间 具 有 有 意义 的 序 或 秩 评定 
(ranking) ， 但 是 相继 值 之 间 的 差 是 未 知 的 。 

例 2.3 序数 属性 。 假 设 drink_siee 对 应 于 快 食 店 供应 的 饮料 量 。 这 个 标 称 属性 具有 3 
个 可 能 的 值 一 一 小 、 中 、 大 。 这 些 值 具有 有 意义 的 先后 次 序 (对 应 于 递增 的 饮料 量 )。 然 
而 ， 例 如 我 们 不 能 说 “大 ” 比 “ 中 ”大 多 少 。 序 数 属 性 的 其 他 例子 包括 grade (成 绩 ， 例 如 
A+、A、A 一 、B+ 等 ) 和 professional_rank (职位 )。 职 位 可 以 按 顺 序 枚 举 ， 如 对 于 教师 有 
助教 、 讲 师 、 副 教授 和 教授 ， 对 于 军阶 有 列兵 、 一 等 兵 、 专 业 和 军士 、 下 士 、 中 士 等 。 

对 于 记录 不 能 客观 度量 的 主观 质量 评 佑 ， 序 数 属性 是 有 用 的 。 因 此 ， 序 数 属 性 通常 用 于 
等 级 评定 调查 。 在 一 项 调查 中 ， 作 为 顾客 ， 参 与 者 被 要 求 评定 他 们 的 满意 程度 。 顾 客 的 满意 
度 有 如 下 序数 类 别 : 0 一 一 很 不 满意 ，1 一 一 不 太 满意 ，2 一 一 中 性 ，3 一 一 满意 ，4 一 -很 
满意 。 m 

正如 在 数据 归 约 中 (第 3 章 ) 所 看 到 的 ， 序 数 属性 也 可 以 通过 把 数值 量 的 值 域 划分 成 
有 限 个 有 序 类 别 ， 把 数值 属性 离散 化 而 得 到 。 

序数 属性 的 中 心 趋势 可 以 用 它 的 众 数 和 中 位 数 (有 序 序列 的 中 间 值 ) 表示 ,但 不 能 定 
义 均值 。 

注意 ， 标 称 、 二 元 和 序数 属性 都 是 定性 的 。 即 ， 它 们 描述 对 象 的 特征 ， 而 不 给 出 实际 大 
小 或 数量 。 这 种 定性 属性 的 值 通常 是 代表 类 别 的 词 。 如 果 使 用 整数 ， 则 它们 代表 类 别 的 计算 
机 编码 ， 而 不 是 可 测量 的 量 〈 例 如 ，0 表示 小 杯 饮料 ，1 表示 中 号 杯 ，2 表示 大 杯 ) 。 下 一 
节 ， 我 们 考虑 数值 属性 ， 它 提供 对 象 的 定量 度量 。 


2.1.5 数值 属性 


数值 属性 (numeric attribute) 是 定量 的 ， 即 它 是 可 度量 的 量 ， 用 整数 或 实数 值 表 示 。 数 
值 属 性 可 以 是 区 间 标 度 的 或 比率 标 度 的 。 

1. 区 和 间 标 度 属性 

区 间 标 度 (interval-scaled) 属性 用 相等 的 单位 尺度 度量 。 区 间 属 性 的 值 有 序 ， 可 以 为 
正 、0 或 负 。 因 此 ,除了 值 的 秩 评 定之 外 ， 这 种 属性 允许 我 们 比较 和 定量 评估 值 之 间 的 差 。 

例 2.4 KERERE, temperature (温度) 属性 是 区 间 标 度 的。 假设 我 们 有 许多 天 的 
室外 温度 值 ， 其 中 每 天 是 一 个 对 象 。 把 这 些 值 排序 ， 则 我 们 得 到 这 些 对 象 关于 温度 的 秩 评 
定 。 此 外 ， 我 们 还 可 以 量化 不 同 值 之 间 的 差 。 例 如 ， 温 度 CH STAM IST. 日 历 日 期 
是 另 一 个 例子 。 例 如 ，2002 年 与 2010 年 相差 8 年 。 | 

摄氏 温度 和 华氏 温度 都 没有 真正 的 零点 ; BD, OC 和 0 下 都 不 表示 “没有 温度 " 。( 例如 ， 
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对 于 摄氏 温度 ， 度 量 单位 是 水 在 标准 大 气压 下 沸点 温度 与 冰点 温度 之 差 的 1/100。) 尽管 我 
们 可 以 计算 温度 值 之 差 ， 但 是 我 们 不 能 说 一 个 温度 值 是 另 一 个 的 倍数 。 没 有 真正 的 零 ， 例 
如 ， 我 们 不 能 说 10°C E SC HR 2 倍 。 也 就 是 说 ， 我 们 不 能 用 比率 谈论 这 些 值 。 类 似 地 ,日 
历 日 期 也 没有 绝对 的 零点 。(0 年 并 不 对 应 于 时 间 的 开始 。) 这 把 我 们 带 到 比率 标 度 属性 。 对 
于 比率 标 度 属性 ， 存 在 真正 的 零点 。 

由 于 区 间 标 度 属性 是 数值 的 ， 除 了 中 心 趋势 度量 中 位 数 和 众 数 之 外 ， 我 们 还 可 以 计算 它 
们 的 均值 。 

2. 比率 标 度 属性 

比率 标 度 (ratio-scaled) 属性 是 具有 固有 零点 的 数值 属性 。 也 就 是 说 ， 如 果 度 量 是 比率 
标 度 的 ， 则 我 们 可 以 说 一 个 值 是 另 一 个 的 倍数 (或 比率 ) 。 此 外 ， 这 些 值 是 有 序 的 ， 因 此 我 
们 可 以 计算 值 之 间 的 差 ， 也 能 计算 均值 、 中 位 数 和 众 数 。 

例 2.5 比率 标 度 属性 。 不 像 摄氏 和 华氏 温度 ， 开 氏 温 标 (K) 具有 绝对 零点 (0 中 = 
~273.15C): 在 该 点 ， 构 成 物质 的 粒子 具有 零 动能 。 比 率 标 度 属性 的 其 他 例子 包括 诸如 工 
作 年 限 〈 例 如 ， 对 象 是 雇员 ) 和 字数 .( 对 象 是 文档 ) 等 计数 属性 。 其 他 例子 包括 度量 重量 、 
高 度 、 速 度 和 货币 量 (例如 ，100 美元 比 1 美元 富有 100 倍 ) 的 属性 。 E 


2.1.6 离散 属性 与 连续 属性 

我 们 已 经 把 属性 分 为 标 称 、 二 元 、 序 数 和 数值 类 型 。 可 以 用 许多 方法 来 组 织 属 性 类 型 ， 
这 些 类 型 不 是 互 斥 的 。 

机 器 学 习 领 域 开 发 的 分 类 算法 通常 把 属性 分 成 离散 的 或 连续 的 。 每 种 类 型 都 可 以 用 不 同 
的 方法 处 理 。 离 散 属性 具有 有 限 或 无 限 可 数 个 值 ， 可 以 用 或 不 用 整数 表示 。 属 性 kuir_color、 
smoker, medical_test 和 drink_size 都 有 有 限 个 值 ， 因 此 是 离散 的 。 注 意 ， 离 散 属性 可 以 具有 数 
值 值 。 如 对 于 二 元 属性 取 0 和 1， 对 于 年 龄 属性 取 0 到 110。 如 果 一 个 属性 可 能 的 值 集合 是 
无 限 的 ， 但 是 可 以 建立 一 个 与 自然 数 的 一 一 对 应 ， 则 这 个 属性 是 无 限 可 数 的 。 例 如 ， 属 性 
customer_ID 是 无 限 可 数 的 。 顾 客 数量 是 无 限 增长 的 ， 但 事实 上 实际 的 值 集 合 是 可 数 的 〈 可 
以 建立 这 些 值 与 整数 集合 的 一 一 对 应 ) 。 邮 政 编码 是 另 一 个 例子 。 

如 果 属 性 不 是 离散 的 ， 则 它 是 连续 的 。 在 文献 中 ， 术 语 “数值 属性 ”与 “连续 属性 ” 
通常 可 以 互 换 地 使 用 。( 这 可 能 令 人 困惑 ， 因 为 在 经 典 意义 下 ， 连 续 值 是 实数 ， 而 数值 值 可 
以 是 整数 或 实数 。) 在 实践 中 ， 实 数值 用 有 限 位 数字 表示 。 连 续 属性 一 般 用 浮 点 变量 表示 。 


2.2 数据 的 基本 统计 描述 

对 于 成 功 的 数据 预 处 理 而 言 ， 把 握 数 据 的 全 貌 是 至 关 重 要 的 。 基 本 统计 描述 可 以 用 来 识 
别 数 据 的 性 质 ， 凸 显 哪些 数据 值 应 该 视 为 噪声 或 离 群 点 。 

本 节 讨 论 三 类 基本 统计 描述 。 我 们 从 中 心 趋 势 度量 开始 (2.2.1 节 ) ， 它 度量 数据 分 布 
的 中 部 或 中 心 位 置 。 直 观 地 说 ， 给 定 一 个 属性 ， 它 的 值 大 部 分 落 在 何 处 ? 特殊 地 ， 我 们 讨论 
均值 、 中 位 数 、 众 数 和 中 列 数 。 

除了 佑 计数 据 集 的 中 心 趋势 之 外 ， 我 们 还 想 知道 数据 的 散布 。 即 ， 数 据 如 何 分 散 ? 数据 
散布 的 最 常见 度量 是 数据 的 极 差 、 四 分 位 数 、 四 分 位 数 极 差 、 五 数 概括 和 人 金 图 ， 以 及 数据 的 
方差 和 标准 差 。 对 于 识别 离 群 点 ， 这 些 度量 是 有 用 的 。 这 些 在 2. 2. 2 节 介 绍 。 

最 后 ， 我 们 可 以 使 用 基本 统计 描述 的 许多 图 形 显示 来 可 视 化 地 审视 数据 (2.2.3 节 )。 
许多 可 视 化 或 图 形 数据 表示 软件 包 都 包含 条 图 、 饼 图 和 线 图 。 其 他 流行 的 数据 概括 和 分 布 显 
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示 方 式 包括 分 位 数 图 、 分 位 数 -~ 分 位 数 图 、 直 方 图 和 散 点 图 。 


2.2.1 中 心 趋势 度量 : 均值 、 中 位 数 和 众 数 


本 节 ， 我 们 考察 度量 数据 中 心 趋势 的 各 种 方法 。 假 设 我 们 有 某 个 属性 X， 如 salary, 已 
经 对 一 个 数据 对 象 集 记录 了 它们 的 值 。 令 x, ，x,，…，zxn 为 了 的 NN 个 观测 值 或 观测 。 在 本 
节 的 余下 部 分 ， 这 些 值 又 称 (X 的 ) “数据 集 ”。 如 果 我 们 标 出 salary 的 这 些 观测 ， 大 部 分 
值 将 落 在 何 处 ? 这 反映 数据 的 中 心 趋势 的 思想 。 中 心 趋势 度量 包括 均值 、 中 位 数 、 众 数 和 中 
列 数 。 

数据 集 “ 中 心 ”的 最 常用 、 最 有 效 的 数值 度量 是 (算术 ) Ho Samy, ms e, xy 为 
某 数值 属性 天 《如 salary) 的 六 个 观测 值 或 观测 。 该 值 集合 的 均值 (mean) 为 


Se 
_ £ Xi 十 Ma to 十 多 
x= N = (2.1) 


这 对 应 于 关系 数据 库 系 统 提供 的 内 置 聚集 函数 average (SQL 的 avg () ) 。 
例 2.6 均值 。 假 设 我 们 有 salary 的 如 下 值 ( 以 千 美元 为 单位 ) ， 按 递增 次 序 显示 : 30, 
31, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110, 使 用 (2.1) 式 , 我 们 有 


30 +31 +47 +50 +52 +52 +56 +60 +63 +70 +70 +110 
12 








x= 


Alt, salary 的 均值 为 58 000 美元 。 = 
有 时， 对 于 i=1，…，N， 每 个 值 x, 可 以 与 一 个 权重 w; 相关 联 。 权 重 反映 它们 所 依附 
的 对 应 值 的 意义 、 重 要 性 或 出 现 的 频率 。 在 这 种 情况 下 ， 我 们 可 以 计算 


2 w; 1 2 N 
这 称 做 加 权 算 术 均 值 或 加 权 平 均 。 

尽管 均值 是 描述 数据 集 的 最 有 用 的 单个 量 ， 但 是 它 并 非 总 是 度量 数据 中 心 的 最 佳 方法 。 
主要 问题 是 ， 均 值 对 极端 值 〈 例 如 ， 离 群 点 ) 很 敏感 。 例 如 ， 公 司 的 平均 薪水 可 能 被 少数 
几 个 高 收入 的 经 理 显著 推 高 。 类 似 地 ， 一 个 班 的 考试 平均 成 绩 可 能 被 少数 很 低 的 成 绩 拉 低 一 
些 。 为 了 抵消 少数 极端 值 的 影响 ， 我 们 可 以 使 用 截 尾 均值 (trimmed mean), MBH (AE 
弃 高 低 极 端 值 后 的 均值 。 例 如 ， 我 们 可 以 对 salary 的 观测 值 排序 ， 并 且 在 计算 均值 之 前 去 掉 
高 端 和 低 端的 2% 。 我 们 应 该 避免 在 两 端 截 去 太 多 (如 20% )， 因 为 这 可 能 导致 丢失 有 价值 
的 信息 。 

对 于 倾斜 〈 非 对 称 ) 数据 ， 数 据 中 心 的 更 好 度量 是 中 位 数 (median) 。 中 位 数 是 有 序数 
据 值 的 中 间 值 。 它 是 把 数据 较 高 的 一 半 与 较 低 的 一 半分 开 的 值 。 

在 概率 论 与 统计 学 ， 中 位 数 一 般 用 于 数值 数据 。 然 而 ， 我 们 把 这 一 概念 推广 到 序数 数 
据 。 假 设 给 定 某 属性 X 的 NN 个 值 按 递增 序 排序 。 如 果 NN 是 奇数 ， 则 中 位 数 是 该 有 序 集 的 中 
间 值 ， 如 果 入 是 偶数 ， 则 中 位 数 不 唯 一 ， 它 是 最 中 间 的 两 个 值 和 它们 之 间 的 任意 值 。 在 了 
是 数值 属性 的 情况 下 ， 根 据 约定 ， 中 位 数 取 作 最 中 间 两 个 值 的 平均 值 。 

例 2.7 中 位 数 。 让 我 们 找 出 例 2.6 中 数据 的 中 位 数 。 该 数据 已 经 按 递增 序 排序 。 有 侦 
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数 个 观测 〈 即 12 个 观测 ) ， 因 此 中 位 数 不 唯 一 。 它 可 以 是 最 中 间 两 个 值 32 和 56 〈 即 列表 中 
的 第 6 和 第 7 个 值 ) 中 的 任意 值 。 根 据 约 定 ， 我 们 指定 这 两 个 最 中 间 的 值 的 平均 值 为 中 位 


me. APO NB = 54。 于 是 ， 中 位 数 为 54 000 美元 。 


假设 我 们 只 有 该 列表 的 前 11 个 值 。 给 定 奇数 个 值 ， 中 位 数 是 最 中 间 的 值 。 这 是 列表 的 
第 6 个 值 ， 其 值 为 52 000 美元 。 . m 

当 观 测 的 数量 很 大 时 ， 中 位 数 的 计算 开销 很 大 。 然 而 ， 对 于 数值 属性 ， 我 们 可 以 很 容易 
计算 中 位 数 的 近似 值 。 假 定数 据 根据 它们 的 x, 值 划分 成 区 间 ， 并 且 已 知 每 个 区 间 的 频率 
( 即 数据 值 的 个 数 )。 例 如 ， 可 以 根据 年 薪 将 人 划分 到 诸如 10 000 ~20 000 美元 、20 000 ~ 30.000 
美元 等 区 间 。 令 包含 中 位 数 频 率 的 区 间 为 中 位 数 区 间 。 我 们 可 以 使 用 如 下 公式 ， 用 插值 计算 
整个 数据 集 的 中 位 数 的 近似 值 〈 例 如， 薪水 的 中 位 数 ) : 
N/2 + (È freq); 

freq median 
RH, L 是 中 位 数 区 间 的 下 界 ，N 是 整个 数据 集中 值 的 个 数 ， (freq) 是 低 于 中 位 数 区 间 
的 所 有 区 间 的 频率 和 ，jequw 是 中 位 数 区 间 的 频率 ， 而 width 是 中 位 数 区 间 的 宽度 。 

众 数 是 另 一 种 中 心 趋势 度量 。 数 据 集 的 众 数 (mode) 是 集合 中 出 现 最 频繁 的 值 。 因 此 ， 
可 以 对 定性 和 定量 属性 确定 众 数 。 可 能 最 高 频率 对 应 多 个 不 同 值 ， 导 致 多 个 众 数 。 具 有 -- 
个 、 两 个 、 三 个 众 数 的 数据 集合 分 别称 为 单 峰 的 (unimodal) 、 双 峰 的 (bimodal) 和 三 峰 的 
(trimodal) 。 一 般 地 ， 具 有 两 个 或 更 多 众 数 的 数据 集 是 多 峰 的 (multimodal ) 。 在 另 一 种 极端 
情况 下 ， 如 果 每 个 数据 值 仅 出 现 一 次 ， 则 它 没有 众 数 。 

例 2.8 众 数 。 例 2.6 的 数据 是 双 峰 的 ， 两 个 众 数 为 52 000 美元 和 70 000 美元 。 a 

对 于 适度 倾斜 〈 非 对 称 ) 的 单 峰 数 值 数据 ， 我 们 有 下 面 的 经 验 关系 

mean - mode ~ 3 x (mean — median) (2.4) 

RER: 如 果 均 值 和 中 位 数 已 知 ， 则 适度 倾斜 的 单 峰 频 率 曲 线 的 众 数 容易 近似 计算 。 

中 列 数 (midrange) 也 可 以 用 来 评估 数值 数据 的 中 心 趋势 。 中 列 数 是 数据 集 的 最 大 和 最 
小 值 的 平均 值 。 中 列 数 容易 使 用 SQL 的 聚集 函数 max () 和 min () 计算 。 

例 2. 9 中 列 数 。 例 2.6 数据 的 中 列 数 为 2 000 + 110 000 -70 000 美元 。 a 

在 具有 完全 对 称 的 数据 分 布 的 单 峰 频 率 曲线 中 ,均值 、 中 位 数 和 众 数 都 是 相同 的 中 心 
值 ， 如 图 2. la 所 示 。 


在 大 部 分 实际 应 用 中 ， 数 据 都 是 不 对 称 的 。 它 们 可 能 是 正 倾 斜 的 ， 其 中 众 数 出 现在 小 于 中 
位 数 的 值 上 〈 见 图 2. lb) ; 或 者 是 负 倾斜 的 ， 其 中 众 数 出 现在 大 于 中 位 数 的 值 上 〈 见 图 2. 1c)。 





median = L, + ( ) width (2.3) 


R 
位 数 














a) 对 称 数 据 b 正 倾斜 数据 O 负 倾 斜 数据 
图 2.1 对 称 、 正 倾斜 和 负 倾 斜 数据 的 中 位 数 、 均 值 和 众 数 
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2.2.2 度量 数据 散布 ; 极 差 、 四 分 位 数 、 方 差 、 标 准 差 和 四 分 位 数 极 差 


现在 ， 我 们 考察 评估 数值 数据 散布 或 发 散 的 度量 。 这 些 度量 包括 极 差 、 分 位 数 、 四 分 位 
数 、 百 分 位 数 和 四 分 位 数 极 差 。 五 数 概括 可 以 用 盒 图 显示 ， 它 对 于 识别 离 群 点 是 有 用 的 。 方 
差 和 标准 差 也 可 以 指出 数据 分 布 的 散布 。 

1. 极 差 、 四 分 位 数 和 四 分 位 数 极 差 

开始 ， 让 我 们 先 学 习作 为 数据 散布 度量 的 极 差 、 分 位 数 、 四 分 位 数 、 百 分 位 数 和 四 分 位 
数 极 差 。 

Ba, %, 7, dy 是 某 数 值 属 性 了 XY 上 的 观测 的 集合 。 该 集合 的 极 差 (range) 是 最 大 值 
(max () ) 与 最 小 值 (min () ) 之 差 。 

假设 属性 X 的 数据 以 数值 递增 序 排 
列 。 想 象 我 们 可 以 挑选 某 些 数据 点 ， 以 





便 把 数据 分 布 划分 成 大 小 相等 的 连贯 人 
集 ， 如 图 2. 2 所 示 。 这 些 数据 点 称 做 分 

位 数 。 分 位 数 (quantile) 是 取 自 数据 分 Q, Q Q 
布 的 每 隔 一 定 间隔 上 的 点 ， 把 数据 划分 第 25 个 中 位 数 第 75 个 


成 基本 上 大 小 相等 的 连贯 集合 。 (我 们 HO NARR 


说 “基本 上 ”， 因 为 可 能 不 存在 把 数据 ”图 2.2 ee 
划分 成 恰好 大 小 相等 的 诸 子 集 的 的 数 HA a PASE aes 个 
据 值 。 为 简单 起 见 ， 我 们 将 称 它们 相 De i 
等 。) 给 定数 据 分 布 的 第 大 个 9- 分 位 数 是 值 <， 使 得 小 于 % 的 数据 值 最 多 为 br9， 而 大 于 x 的 
数据 值 最 多 为 《gq -k)/g， 其 中 是 整数 ， 使 得 0 < <g。 我 们 有 9 -1 个 g- 分 位 数 。 

2- 分 位 数 是 一 个 数据 点 ， 它 把 数据 分 布 划 分 成 高 低 两 半 。2- 分 位 数 对 应 于 中 位 数 。4- 分 
位 数 是 3 个 数据 点 ， 它 们 把 数据 分 布 划分 成 4 个 相等 的 部 分 ， 使 得 每 部 分 表示 数据 分 布 的 四 
分 之 一 。 通 常 称 它们 为 四 分 位 数 (quartile) 。100- 分 位 数 通常 称 做 百 分 位 数 (percentile)， 
它们 把 数据 分 布 划分 成 100 个 大 小 相等 的 连贯 集 。 中 位 数 、 四 分 位 数 和 百 分 位 数 是 使 用 最 广 
泛 的 分 位 数 。 

四 分 位 数 给 出 分 布 的 中 心 、 散 布 和 形状 的 某 种 指示 。 第 1 个 四 分 位 数 记 作 0, ， 是 第 25 
个 百 分 位 数 ， 它 砍 掉 数据 的 最 低 的 25% 。 第 3 个 四 分 位 数 记 作 0;， 是 第 75 个 百 分 位 数 ， 它 
砍 掉 数据 的 最 低 的 75% (或 最 高 的 25% ) 。 第 2 个 四 分 位 数 是 第 50 个 百 分 位 数 ， 作 为 中 位 
数 ， 它 给 出 数据 分 布 的 中 心 。 

第 1 个 和 第 3 个 四 分 位 数 之 间 的 距离 是 散布 的 一 种 简单 度量 ， 它 给 出 被 数据 的 中 间 一 半 
所 履 盖 的 范围 。 该 距离 称 为 四 分 位 数 极 差 (IQR) ， 定 义 为 

IQR = Q, - Q, (2.5) 

例 2.10 ”四 分 位 数 极 差 。 四 分 位 数 是 3 个 值 ， 把 排序 的 数据 集 划 分 成 4 个 相等 的 部 分 。 
例 2. 6 的 数据 包含 12 个 观测 ， 已 经 按 递增 序 排序 。 这 样 ， 该 数据 集 的 四 分 位 数 分 别 是 该 有 
序 表 的 第 3、 第 6 和 第 9 Mi. KE, Q =47 000 美元 ， 而 Q, = 63 000 美元 。 于 是 ， 四 分 位 
数 极 差 为 JOR = 63 000 -47 000 = 16 000 美元 。( 注 意 , 第 6 个 值 是 中 位 数 52 000 美元 ， 尽 管 
这 个 数据 集 因为 数据 值 的 个 数 为 偶数 有 两 个 中 位 数 。) 加 

2. 五 数 概括 、 会 图 与 离 群 点 

对 于 描述 倾斜 分 布 ， 单 个 散布 数值 度量 〈 例 如 ，1OR) 都 不 是 很 有 用 。 看 一 看 图 2.1 的 
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对 称 和 倾斜 的 数据 分 布 。 在 对 称 分 布 中 ， 中 位 数 〈 和 其 他 中 心 度量 ) 把 数据 划分 成 相同 大 
小 的 两 半 。 对 于 倾斜 分 布 ， 情 况 并 非 如 此 。 因 此 ， 除 中 位 数 之 外 ， 还 提供 两 个 四 分 位 数 0， 
AQ, 更 加 有 益 。 识 别 可 疑 的 离 群 点 的 通常 规则 是 ， 挑 选 落 在 第 3 个 四 分 位 数 之 上 或 第 1 个 
四 分 位 数 之 下 至 少 1.5 x 1QR 处 的 值 。 

因为 @, 、 中 位 数 和 Q, 不 包含 数据 的 端点 (例如 尾 ) 信息 ,分 布 形状 的 更 完整 的 概括 可 
以 通过 同时 也 提供 最 高 和 最 低 数 据 值 得 到 。 这 称 做 五 数 概括 。 分 布 的 五 数 概 插 (five- number 
summary) 由 中 位 数 (0@:) 、 四 分 位 数 8, 和 @: 、 最 小 和 最 大 观测 值 组 成 ， 按 次 序 Minimum, 
Q,, Median, Q,, Maximum 写 出 。 

盒 图 (boxplot) 是 一 种 流行 的 分 布 的 直观 表示 。 盒 图 体现 了 五 数 概括 :; 

。 盒 的 端点 一 般 在 四 分 位 数 上 ， 使 得 盒 的 长 度 是 四 分 位 数 极 差 JOR。 

。 中 位 数 用 盒 内 的 线 标记 。 

© 盒 外 的 两 条 线 〈 称 做 胡须 ) 延伸 到 最 小 (Minimum) ALK (Maximum) 观测 值 。 

当 处 理 数 量 适 中 的 观测 值 时 ， 值 得 个 别 地 绘 出 可 能 的 离 群 点 。 在 盒 图 中 这 样 做 : 仅 当 最 
高 和 最 低 观 测 值 超过 四 分 位 数 不 到 1. 5 x 10R 时 ， 胡 须 扩 展 到 它们 。 否 则 ， 胡 须 在 出 现在 四 
分 位 数 的 1. 5 x JOR 之 内 的 最 极端 的 观测 值 处 终止 ， 剩 下 的 情况 个 别 地 绘 出 。 盒 图 可 以 用 来 
比较 若干 个 可 比较 的 数据 集 。 

例 2.11 盒 图 。 图 2.3 给 出 在 给 定 
的 时 间 段 AllElectronics 的 4 个 部 门 销售 200 | 








的 商品 单价 数据 的 盒 图 。 对 于 部 门 1, 我 d , ~ T 
们 看 到 销售 商品 单价 的 中 位 数 是 80 美 o] | ! 
Te, Q, 是 60 美元 ，0, 是 100 美元 。 注 T 
意 ， 该 部 门 的 两 个 边远 的 观测 值 被 个 别 。 “| | + 
地 绘 出 ， 因 为 它们 的 值 175 和 202 都 超过 p 1] 4 
IQR 的 1.5 倍 ， 这 里 1OR =40。 m X 100] ! 
盒 图 可 以 在 0(n logn) 时 间 内 计算 。 号 ,, | 
依赖 于 所 要 求 的 质量 ， 近 似 盒 图 可 以 在 pi 
线性 或 子 线性 时 间 内 计算 。 “| 了 r 
3. 方差 和 标准 差 wd 二 L 
方差 与 标准 差 都 是 数据 散布 度量 ， 20 1 + 
它们 指出 数据 分 布 的 散布 程度 。 低 标准 | 
差 意味 数据 观测 趋向 于 非常 靠近 均值 ， 部 门 | ”部门 部 门 3 部 门 4 
和 RRA AX M 图 2.3 在 给 定 的 时 间 段 中 AllElectronics 的 4 个 部 门 
o 销售 的 商品 单价 数据 的 盒 图 
数值 属性 X 的 N 个 观测 值 x;，x,，…，zxn 的 方差 (variance) Æ: 
o = WE = (we) -# (2.6) 


其 中 , 是 观测 的 均值 ， 由 (21) 式 定义 。 观 测 值 的 标准 差 (standard deviation) o EFX 
2 的 平方 根 。 
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[3] 





例 2. 12 方差 和 标准 差 。 在 例 2.6 中 , 使 用 (2.1) 式 计算 均值 ,我 们 得 到 x=58 000 


美元 。 为 了 确定 该 例子 数据 集 的 方差 和 标准 差 ， 我 们 置 W =12, 使 用 (2.6) 式 得 到 : 
o = 5 (30° +36? +47? + … +110?) - 58? ~ 379,17 
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o = V379,17 = 19.14 = 
作为 发 散 性 的 度量 ， 标 准 差 o 的 性 质 是 : 
。 o 度量 关于 均值 的 发 散 ， 仅 当选 择 均值 作为 中 心 度量 时 使 用 。 
。 仅 当 不 存在 发 散 时 ， 即 当 所 有 的 观测 值 都 具有 相同 值 时 ，e =0; 否则 ，c >0。 
重要 的 是 ， 一 个 观测 一 般 不 会 远离 均值 超过 标准 差 的 数 倍 。 精 确 地 说 ， 使 用 不 等 式 ， 可 


以 证 明 最 少 (1 Je) x100% 的 观测 离 均值 不 超过 个 标准 差 。 因 此 ， 标 准 差 是 数据 集 发 散 


的 很 好 指示 器 。 
大 型 数据 库 中 方差 和 标准 差 的 计算 是 可 伸缩 的 。 


2.2.3 数据 的 基本 统计 描述 的 图 形 显示 

本 节 我 们 研究 基本 统计 描述 的 图 形 显示 ， 包 括 分 位 数 图 、 分 位 数 - 分 位 数 图 、 直 方 图 和 
散 点 图 。 这 些 图 形 有 助 于 可 视 化 地 审视 数据 ， 对 于 数据 预 处 理 是 有 用 的 。 前 三 种 图 显示 一 元 
分 布 ( 即 ,一 个 属性 的 数据 ) ， 而 散 点 图 显示 二 元 分 布 〈 即 ， 涉 及 两 个 属性 ) 。 

1. 分 位 数 图 

这 里 和 以 下 几 小 节 我 们 介绍 常用 的 数据 分 布 的 图 形 显 示 。 分 位 数 图 (quantile plot) 是 
一 种 观察 单 变量 数据 分 布 的 简单 有 效 方法 。 首 先 ， 它 显示 给 定 属性 的 所 有 数据 (允许 用 户 
评估 总 的 情况 和 不 寻常 的 出 现 ) 。 其 次 ， 它 绘 出 了 分 位 数 信息 (92.2.2 节 )。 对 于 某 序数 
或 数值 属性 全 ， 设 x,(i=1,，…,N) 是 按 递增 序 排 序 的 数据 ， 使 得 *, 是 最 小 的 观测 值 ， 而 
ty 是 最 大 的 。 每 个 观测 值 x; 与 一 个 百分数 配对， 指出 大 约 fx 100% 的 数据 小 于 值 x;。 我 
们 说 “大 约 ”， 因 为 可 能 没有 一 个 精确 的 小 数值 f， 使 得 数据 的 f; x 100% 小 于 值 x;。 注 意 ， 
百分比 0. 25 对 应 于 四 分 位 数 0, ， 百 分 比 0. 50 对 应 于 中 位 数 ， 而 百分比 0.75 对 应 于 0;。 


令 


i-0.5 
f= WV (2.7) 


BES (MAFO 到 1 -六 ( 稍 小 于 1)， 以 相同 的 步 长 1/N 递增 。 在 分 位 数 图 中 ， 


x 对 应 刻画 出 。 这 使 得 我 们 可 以 基于 分 位 数 比较 不 同 的 分 布 。 例 如 ， 给 定 两 个 不 同时 间 段 的 
销售 数据 的 分 位 数 图 ， 我 们 一 眼 就 可 以 比较 它们 的 8; 、 中 位 数 、@: ARH S E. 








例 2. 13 分 位 数 图 。 图 2.4 显示 了 表 2. 1 的 单价 数据 的 分 位 数 图 。 E 
表 2.1 AllElectronics 的 一 个 部 门 销 售 的 
商品 单价 数据 集 

单价 (美元 ) 商品 销售 量 140 - 
40 275 120 4 
43 300 R 100 4 中 位 数 ae get? PEE d 
H 230 K 80 Q, ee 

g6 | OS 
74 360 E 40 -e499 
75 515 204 
78 540 0 T T T 1 
a 0.00 0.25 0.50 0.75 1.00 

115 320 
117 270 m 


— 3 图 2.4 表 2.1 的 单价 数据 的 分 位 数 图 
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2. 分 位 数 -分 位 数 图 

分 位 数 - 分 位 数 图 (quantile-quantile plot) 或 q-q 图 对 着 另 一 个 对 应 的 分 位 数 ， 绘 制 一 
个 单 变量 分 布 的 分 位 数 。 它 是 一 种 强 有 力 的 可 视 化 工具 ， 使 得 用 户 可 以 观察 从 一 个 分 布 到 另 
一 个 分 布 是 否 有 漂移 。 

假定 对 于 属性 或 变量 unit price (单价 ) ， 我 们 有 两 个 观测 集 ， 取 自 两 个 不 同 的 部 门 。 设 
my, ty 是 取 自 第 一 个 部 门 的 数据 ，y, ，…，yw 是 取 自 第 二 个 部 门 的 数据 ， 其 中 每 组 数 
据 都 已 按 递增 序 排序 。 如 果 MM=N( 即 每 个 集合 中 的 点 数 相等 )， 则 我 们 简单 地 对 着 x; H y, 
其 中 yy; 和 xz; 都 是 它们 的 对 应 数据 集 的 第 (i -0.5)/N 个 分 位 数 。 如 果 必 <N( 即 第 二 个 部 门 
的 观测 值 比 第 一 个 少 ) ， 则 可 能 只 有 M TAE q-q 图 中 。 这 里 ，y; 是 y 数据 的 第 (i -0.5)/ 
1M 个 分 位 数 ， 对 着 x 数据 的 第 (i -0.5)/M 个 分 位 数 画 。 在 典型 情况 下 ， 该 计算 涉及 插值 。 

例 2.14 分 位 数 一 分 位 数 图 。 图 2.5 显示 在 给 定 的 时 间 段 AllElectronics 的 两 个 不 同 部 
门 销售 的 商品 的 单价 数据 的 分 位 数 -分 位 数 图 。 每 个 点 对 应 于 每 个 数据 集 的 相同 的 分 位 数 ， 
并 对 该 分 位 数 显示 部 门 1 与 部 门 2 的 销售 商品 单价 。 (为 帮助 比较 ,我们 也 画 了 一 条 直线 ， 
它 代表 对 于 给 定 的 分 位 数 ， 两 个 部 门 的 单价 相同 的 情况 。 此 外 ， 加 黑 的 点 分 别 对 应 于 Q 
中 位 数 和 Q30) 


部 门 2 (单价 美元 ) 





部 门 1 (单价 美元 ) 


图 2.5 两 个 不 同 部 门 的 单价 数据 的 分 位 数 -分 位 数 图 


例如 ， 我 们 看 到 ， 在 0, ， 部 门 1 销售 的 商品 单价 比 部 门 2 稍 低 。 换 言 之 ， 部 门 1 销售 
的 商品 25% 低 于 或 等 于 60 美元 ， 而 在 部 门 2 销售 的 商品 25% 低 于 或 等 于 64 美元 。 在 第 50 
个 分 位 数 〈 标 记 为 中 位 数 ， 即 0,) ， 我 们 看 到 部 门 1 销售 的 商品 50% 低 于 或 等 于 78 美元 ， 
而 在 部 门 2 销售 的 商品 50% 低 于 或 等 于 85 美元 。 一 般 地 ， 我 们 注意 到 部 门 1 的 分 布 相对 于 
部 门 2 有 一 个 漂移 ， 因 为 部 门 1 销售 的 商品 单价 趋向 于 比 部 门 2 低 。 a 

3. 直方 图 

BA (histogram) 或 频率 直方 图 (frequency histogram) 至 少 已 经 出 现 一 个 世纪 ， 并 且 
被 广泛 使 用 。“histo” 意 指 柱 或 杆 ， 而 “gram” 表示 图 ， 因 此 histogram 是 柱 图 。 直 方 图 是 一 
种 概括 给 定 属 性 下 的 分 布 的 图 形 方 法 。 如 果 碟 是 标 称 的 ， 如 汽车 型 号 或 商品 类 型 ， 则 对 于 了 
的 每 个 已 知 值 ， 画 一 个 柱 或 竖 直 条 。 条 的 高 度 标示 该 了 值 出 现 的 频率 ( 即 计 数 ) 。 结 果 图 更 
多 地 称 做 条 形 图 (bar chart) 。 

如 果 天 是 数值 的 ， 则 更 多 使 用 术语 直方 图 。 的 值 域 被 划分 成 不 相交 的 连续 子 域 。 子 域 
称 做 桶 (bucket) 或 箱 (bin)， 是 的 数据 分 布 的 不 相交 子 集 。 桶 的 范围 称 做 宽度 。 通 常 ， 
诸 桶 是 等 宽 的 。 例 如 ， 值 域 为 1 ~200 美元 (对 最 近 的 美元 取 整 ) 的 价格 属性 可 以 划分 成 子 
域 1~20，21 ~40，41 ~60， 等 等 。 对 于 每 个 子 域 ， 画 一 个 条 ， 其 高 度 表 示 在 该 子 域 观 测 到 
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的 商品 的 计数 。 直 方 图 和 划分 规则 将 在 第 3 章 介 绍 数据 归 约 时 进一步 讨论 。 

例 2.15 直方 图 。 图 2. 6 显示 了 表 2. 1 的 数据 集 的 直方 图 ， 其 中 桶 RA) 定义 成 等 
宽 的 ， 代 表 增 基 20 美元 ， 而 频率 是 商品 的 销售 数量 。 = 
6000 - 
5000 + 
4000 + 
3000 + 


销售 商品 计数 


2000 + 





1000 4 














0 4 1 


7 Ed _ E 
40 ~ 59 60 ~ 79 80~99 100-119 120~ 139 
单价 〈 美 元 ) 


图 2.6 表 2. 1 中 数据 集 的 直方 图 


尽管 直方 图 被 广泛 使 用 ,但 是 对 于 比较 单 变量 观测 组 ， 它 可 能 不 如 分 位 数 图 、q-q 图 和 
盒 图 方法 有 效 。 

4. 散 点 图 与 数据 相关 

散 点 图 (scatter plot) 是 确定 两 个 数值 变量 之 间 看 上 去 是 否 存在 联系 、 模 式 或 趋势 的 最 
有 效 的 图 形 方法 之 一 。 为 构造 散 点 图 ， 每 个 值 对 视 为 一 个 代数 坐标 对 ， 并 作为 一 个 点 画 在 平 
面 上 。 图 2. 7 显示 表 2. 1 中 数据 的 散 点 图 。 


700 - 








600 + + tue + 
® 500 ] * C om, 
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Œ 400-4 or, 
© 300 4 Ce 人 
a + + +? + 
= 200 4 

100 4 

0 十 T T T T T T 
0 20 40 60 80 100 120 140 
单价 〈 美 元) 


图 2.7 表 2.1 中 数据 的 散 点 图 


散 点 图 是 一 种 观察 双 变 量 数据 的 有 用 的 方法 ， 用 于 观察 点 徐 和 离 群 点 ， 或 考察 相关 联系 
的 可 能 性 。 两 个 属性 X 和 Y， 如 果 一 个 属性 蕴含 男 一 个 ， 则 它们 是 相关 的 。 相 关 可 能 是 正 的 、 
负 的 或 零 (nul) 相关 〈 不 相关 的 ) 。 图 2.8 显示 了 两 个 属性 之 间 正 相关 和 人 负 相 关 的 例子 。 如 
玉 标 绘 点 的 模式 从 左下 到 右上 倾斜 ， 则 意味 了 的 值 随 Y 的 值 增加 而 增加 ， 上 暗示 正 相关 〈( 见 
图 2. 8a) 。 如 果 标 绘 点 的 模式 从 左上 到 右 下 倾斜 ， 则 意味 的 值 随 了 的 值 减 小 而 增加 ， 暗 示 负 
相关 〈 见 图 2 8b) 。 可 以 画 一 条 最 佳 拟 合 的 线 ， 研 究 变 量 之 间 的 相关 性 。 相 关 性 统计 检验 在 第 
3 章 介绍 数据 集成 时 给 出 〈 见 (3.3) 式 )。 图 2.9 显示 了 三 种 情况 ， 每 个 给 定 的 数据 集 的 两 个 
属性 之 间 都 不 存在 相关 关系 。2. 3. 2 节 说 明 如 何 把 散 点 图 扩展 到 n 个 属性 ， 得 出 散 点 图 矩阵 。 

综 上 所 述 ， 基 本 数据 描述 〈 如 中 心 趋势 度量 和 散布 度量 ) 和 图 形 统计 显示 (如 分 位 数 
图 、 直 方 图 和 散 点 图 ) 提供 了 数据 总 体 情 况 的 有 价值 的 洞察 。 由 于 有 助 于 识别 噪声 和 离 群 
点 ， 所 以 它们 对 于 数据 清理 特别 有 用 。 
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图 2.9 三 种 情况 ， 其 中 每 个 数据 集中 两 个 属性 之 间 都 不 存在 观察 到 的 相关 性 


2.3 数据 可 视 化 

如 何 有 效 地 向 用 户 表示 数据 ? 数据 可 视 化 〈data visualization) 屿 在 通过 图 形 表示 清晰 有 
效 地 表达 数据 。 数 据 可 视 化 已 经 在 许多 应 用 领域 广泛 使 用 。 例 如 ， 我 们 可 以 在 编写 报告 、 管 
理工 商 企业 和 运转、 跟踪 任 务 进 展 等 工作 中 使 用 数据 可 视 化 。 更 流行 地 ， 我 们 可 以 利用 可 视 化 
技术 的 优点 ， 发 现 原始 数据 中 不 易 观 察 到 的 数据 联系 。 现 在 ， 人 们 还 使 用 数据 可 视 化 制造 乐 
趣 和 有 趣 的 图 案 。 

本 节 简 要 介绍 数据 可 视 化 的 基本 概念 。 我 们 从 存放 在 诸如 关系 数据 库 中 的 多 维 数据 开 
始 ， 讨 论 一 些 表 示 方 法 ， 包 括 基于 像素 的 技术 、 几 何 投影 技术 、 尖 于 图 符 的 技术 ， 以 及 层次 
的 和 基于 图 形 的 技术 。 然 后 ， 我 们 讨论 复杂 数据 对 象 和 关系 的 可 视 化 。 


2.3.1 基于 像素 的 可 视 化 技术 


一 种 可 视 化 一 维 值 的 简单 方法 是 使 用 像素 ， 其 中 像素 的 颜色 反映 该 维 的 值 。 对 于 一 个 m 
维 数据 集 ， 基 于 像素 的 技术 (pixel-oriented technique) 在 屏幕 上 创建 m 个 窗口 ， 每 维 一 个 。 
记录 的 m 个 维 值 映射 到 这 些 窗口 中 对 应 位 置 上 的 m 个 像素 。 像 素 的 颜色 反映 对 应 的 值 。 

在 窗口 内 ， 数 据 值 按 所 有 窗口 共用 的 某 种 全 局 序 安 排 。 全 局 序 可 以 用 一 种 对 手头 任务 有 
一 定 意义 方法 ， 通 过 对 所 有 记录 排序 得 到 。 

例 2. 16 基于 像素 的 可 视 化 。AllElectronics 维护 了 一 个 顾客 信息 表 ， 包 含 4 个 维 : in- 
come (WA), credit_limit (信贷 额度 ) ，transaction_volume (成 交 量 ) 和 age (Æ), RIJ 
能 够 通过 可 视 化 技术 分 析 income 与 其 他 属性 之 间 的 相关 性 吗 ? 

我 们 可 以 对 所 有 顾客 按 收入 的 递增 序 排序 ， 并 使 用 这 个 序 ， 在 4 个 可 视 化 窗口 安排 顾客 
数据 ， 如 图 2. 10 所 示 。 像 素颜 色 这 样 选择 ; 值 越 小 ， 颜 色 越 淡 。 使 用 基于 像素 的 可 视 化 ， 
我 们 可 以 很 容易 地 得 到 如 下 观察 credit_limit 随 income 增加 而 增加 ; 收入 处 于 中 部 区 间 的 顾 
客 更 可 能 从 AllElectronics 购物 ; income 与 age 之 间 没 有 明显 的 相关 性 。 = 
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a) income b) credit_limit c) transaction_volume d) age 


图 2.10 通过 按 income 的 递增 序 对 所 有 的 顾客 排序 ，4 个 属性 的 基于 像素 的 可 视 化 


在 基于 像素 的 技术 中 ， 数 据 记录 也 可 以 按 查 询 依赖 的 方法 排序 。 例 如 ， 给 定 一 个 点 查 
W, 我们 可 以 把 所 有 记录 按照 与 该 点 查询 的 相似 性 的 递减 序 排序 。 
对 于 宽 窗 口 ， 以 线性 方法 安排 数据 记录 填充 窗口 的 效果 可 能 不 好 。 每 行 的 第 一 个 像素 与 
前 一 行 的 最 后 一 个 像素 离 得 太 远 ， 尽 管 它们 对 应 的 对 象 在 全 局 序 下 是 彼此 贴近 的 。 此 外 ， 像 
[57] 素 贴近 窗口 中 它 上 面 的 像素 ， 尽 管 这 两 个 像素 对 应 的 对 象 在 全 局 序 下 并 非 彼此 贴近 的 。 为 解 
决 这 一 问题 ， 我 们 可 以 用 空间 填充 曲线 来 安排 数据 记录 填充 窗口 。 空 间 填 充 曲 线 ( space- 
filling curve) 是 这 样 一 种 曲线 ， 它 的 范围 覆盖 整个 维 单位 超 立 方 体 。 由 于 可 视 化 窗口 是 二 
维 的， 我 们 可 以 使 用 二 维 空间 填充 曲线 。 图 2. 11 显示 了 一 些 频繁 使 用 的 二 维 空间 填充 曲线 。 























a) 希 尔 伯 特 曲线 b) 格雷 码 c) Z- 曲 线 
图 2. 11 一 些 频繁 使 用 的 二 维 空间 填充 曲线 


ER, BORDER. AW, M3R (circle segment technique) 使 用 圆号 形 
窗口 ， 如 图 2. 12 所 示 。 这 种 技术 可 以 改善 维 比 较 ， 因 为 诸 维 窗口 并 肩 安排 ， 形 成 一 个 圆 。 
一 个 数据 记录 


维 6 
维 6 
维 5 维 1 jis i 
维 4 维 2 = = 
3 = 
a) b) 


图 2.12 SRA: a) 在 圆 马 内 表示 一 个 数据 记录 ; b) 在 圆号 内 安排 像素 


2. 3.2 几何 投影 可 视 化 技术 
基于 像素 的 可 视 化 技术 的 一 个 缺点 是 ， 它 们 对 于 我 们 理解 多 维 空间 的 数据 分 布 帮助 不 大 。 
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例如 ， 它 们 并 不 显示 在 多 维 子 空间 是 否 存在 稠密 区 域 。 几 何 投影 技术 帮助 用 户 发 现 多 维 数据 [L581 
集 的 有 趣 投影 。 几 何 投影 技术 的 首要 挑战 是 设法 解决 如 何在 二 维 显示 上 可 视 化 高 维 空间 。 
散 点 图 使 用 笛 卡 儿 坐 标 显示 二 维 数据 点 。 使 用 不 同 的 颜色 或 形状 表示 不 同 的 数据 点 ， 可 
以 增加 第 三 维 。 图 2. 13 显示 了 一 个 例子 ， 其 中 XX 和 Y 了 是 两 个 空间 属性 ， 而 第 三 维 用 不 同 的 
形状 表示 。 通 过 这 种 可 视 化 ， 我 们 可 以 看 出 “ +” 和“ x” 类 型 的 点 趋向 于 一 起 出 现 。 
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图 2.13 二 维 数据 集 使 用 散 点 图 可 视 化 。 资 料 来 源 : www. cs. sf. ca/jpei/ publica- 
tions/rareevent- geoinformatica06. pdf 
三 维 散 点 图 使 用 笛 卡 儿 坐 标 系 的 三 个 坐标 轴 。 如 果 也 使 用 颜色 ， ETA RRA 
(HE2. 14), a: 1 
对 于 维 数 超过 4 的 数据 集 ， 散 点 图 一 
般 不 太 有 效 。 散 点 图 矩阵 是 散 点 图 的 一 种 
有 用 扩充 。 对 于 n 维 数据 集 ， 散 点 图 矩阵 
是 二 维 散 点 图 的 n xn 网 格 ， 提 供 每 个 维 
与 所 有 其 他 维 的 可 视 化 。 图 2. 15 显示 了 一 
个 例子 ， 它 显示 营 尾 花 数 据 集 。 该 数据 集 
由 450 个 样本 ， 取 自 3 种 车 尾 花 。 该 数据 
RAS 个 维 : 苯 片 长 度 和 宽度 、 花 办 长 度 
和 宽度 ， 以 及 种 属 。 
随 着 维 数 增加 ， 散 点 图 矩阵 变 得 不 太 
有 效 。 另 一 种 流行 的 技术 称 做 平行 坐标 ， 
它 可 以 处 理 更 高 的 维度 。 为 了 可 视 化 n 维 
数据 点 ， 平 行 坐标 (parallel coordinates) 
绘制 n 个 等 距离 、 相 互 平行 的 轴 ， 每 维 一 = : 
个 。 数 据 记 录用 折线 表示 ， 与 每 个 轴 在 对 SO CRRA RRR ARK. EHRE: 
应 于 相关 维 值 的 点 上 相交 ( 见 图 2. 16). 4/ Scatter_plot. jpg 
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图 2.15 过 尾 花 数 据 集 使 用 散 点 图 矩阵 可 视 化 。 资 料 来 源 : hup://support. sas. com/doc- 
umentation/cdl/en/ grstatproc/61948/HTML/default/images/gsgscmat. gif 








xl X2 33 x4 x5 X6 x7 x8 x9 x10 


2.16 使 用 平行 坐标 可 视 化 。 资 料 来 源 : www. stat. columbia. edu/cook/movabletype/ 
mm/mdgl. png 


平行 坐标 技术 的 一 个 主要 局 限 是 它 不 能 有 效 地 显示 具有 很 多 记录 的 数据 集 。 即 便 是 对 于 
数 千 个 记录 的 数据 集 ， 视 觉 上 的 能 和 重要 也 常常 降低 可 视 化 的 可 读 性 ， 使 得 很 难 发 现 模式 。 
2.3.3 基于 图 符 的 可 视 化 技术 

基于 图 符 的 (icon-based) 可 视 化 技术 使 用 少量 图 符 表 示 多 维 数据 值 。 我 们 考察 两 种 流 
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行 的 基于 图 符 的 技术 一 一 切 尔 诺 夫 脸 和 人 物 线条 画 。 
切 尔 诺 夫 脸 (Chernoff faces) BT ARAB > 切 尔 诺 夫 于 1973 年 引进 的 。 它 把 多 


达 18 个 变量 CAE) 的 多 维 数据 以 卡通 人 脸 显 
示 ( 见 图 2.17)。 切 尔 诺 夫 脸 有 助 于 揭示 数 
据 中 的 趋势 。 脸 的 要 素 ， 如 眼 、 耳 、 口 、 鼻 
等 用 其 形状 、 大 小 、 位 置 和 方向 表示 维 的 值 。 
例如 ， 维 可 以 映射 到 如 下 面部 特征 : 眼 的 大 
小 、 两 眼 的 距离 、 鼻 子 长 度 、 鼻 子 宽 度 、 嘴 
EHR, WERE. ERARE, RERA 
眉毛 倾斜 、 眼 睛 偏离 程度 和 头 部 偏离 程度 。 
切 尔 诺 夫 脸 利用 人 的 思维 能 力 ， 识别 面 
部 特征 的 微小 差异 并 立即 消化 理解 许多 面部 
特征 。 观 察 大 型 数据 表 可 能 是 令 人 乏味 的 。 
通过 浓缩 数据 ， 切 尔 诺 夫 脸 使 得 数据 容易 被 
用 户 消 化 理解 。 这 样 ， 它 有 助 于 数据 的 规律 


8,8 


ĝi 
OP, | 


TO ae 6,3 
LN a af 


图 2.17 切 尔 诺 夫 脸 。 每 张 脸 表 示 一 个 n 维 
数据 点 (n<18) 


和 不 规律 性 的 可 视 化 ， 尽 管 它 在 表示 多 重 联 系 的 能 力 方面 存在 局 限 性 。 其 另 一 个 局 限 性 是 未 
显示 具体 的 数据 值 。 此 外 ， 面 部 特征 因 感知 的 重要 性 而 异 。 这 意味 两 张 脸 (代表 两 个 多 维 
数据 点 ) 的 相似 性 可 能 因 指 派 到 面部 特征 的 维 的 次 序 而 异 。 因 此 ， 需 要 小 心 选择 映射 。 已 


经 发 现 ， 眼 睛 大 小 和 冉 毛 的 焉 斜 是 重要 的 。 


已 经 提出 非 对 称 的 切 尔 诺 夫 脸 作为 原来 技术 的 扩展 。 脸 具有 垂直 (关于 yy 轴 ) 对 称 性 ， 
因此 脸 的 左右 两 边 是 相同 的 ， 对 称 的 切 尔 诺 夫 脸 是 浪费 空间 。 非 对 称 的 切 尔 诺 夫 脸 使 面部 特 


征 加 倍 ， 这 样 允 许 显示 多 达 36 维 。 


AMBRE (stick figure) 可 视 化 技术 把 多 维 数据 映射 到 5- 段 人 物 线条 画 ， 其 中 每 个 画 
都 有 四 肢 和 一 个 躯体 。 两 个 维 被 映射 到 显示 轴 (x 和 yy 轴 ) ， 而 其 余 的 维 映射 到 四 肢 角度 和 
(或 ) 长 度 。 图 2. 18 显示 人 口 普查 数据 ， 其 中 age 和 income 被 映射 到 显示 轴 ， 而 其 他 维 
(gender, education 等 ) 被 映射 到 人 物 线条 画 。 如 果 数 据 项 关于 两 个 显示 维 相对 稠密 ， 则 结 


果 可 视 化 显示 纹理 模式 ,反映 数 据 趋势 。 
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图 2. 18 用 人 物 线条 画 表示 的 人 口 统计 数据 。 资 料 来 源 : C. Grinstein KM, BEEK 


学 ( 洛 费 尔 ) 计算 机 科学 系 
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2. 3.4 层次 可 视 化 技术 

迄今 为 止 所 讨论 的 可 视 化 技术 都 关注 同时 可 视 化 多 个 维 。 然 而 ， 对 于 大 型 高 维 数据 集 ， 
很 难 同时 对 所 有 维 可 视 化 。 层 次 可 视 化 技术 把 所 有 维 划 分 成 子 集 ( 即 子 空间 ) ， 这 些 子 空间 
按 层次 可 视 化 。 

“世界 中 的 世界 (Worlds- within- Worlds)” 又 称 mn-Vision ， 是 一 种 具有 代表 性 的 可 视 化 方 
法 。 假 设 我 们 想 对 6 ARRETE, HREF, X, o, X RIRKA F atit 
他 维 变化 。 我 们 可 以 先 把 维 X,，Xs，Xs 固定 为 某 选 定 的 值 ， 比 如 说 cs ，cs ，cs。 然 后 ， 我 们 
可 以 使 用 一 个 三 维 图 〈 称 做 世界 ) F, X,, X 可 视 化 ， 如 图 2. 19 所 示 。 内 世界 的 原点 位 
于 外 世界 的 点 (c, c, c) 处 ; 外 世界 是 另 一 个 三 维 图 ， 使 用 维 X, X, Xo HPE 
外 世界 中 交互 地 改变 内 世界 原点 的 位 置 ， 然 后 观察 内 世界 的 变化 结果 。 上 此外， 用户 可 以 改变 
内 世界 和 外 世界 使 用 的 维 。 给 定 更 多 的 维 ， 可 以 使 用 更 多 的 世界 层 ， 这 就 是 该 方法 称 做 
“世界 中 的 世界 ”的 原因 。 





图 2.19 “世界 中 的 世界 ”又 称 n- Vision。 资 料 来 源 : http:/graphics. cs. columbia. edu/ 
projects/AutoVisual/images/1. dipstick. 5. gif 
层次 可 视 化 方法 的 另 一 个 例子 是 树 图 (tree- map) ， 它 把 层次 数据 显示 成 典 套 矩形 的 集 
合 。 例 如 ， 图 2. 20 显示 了 对 Google 新 闻 报导 可 视 化 的 树 图 。 所 有 的 新 闻 报 道 组织 成 7 个 类 
别 ， 每 个 显示 在 一 个 唯一 颜色 的 矩形 中 。 在 每 个 类 别 内 ( 即 在 最 顶层 每 个 矩形 内 ) ， 新 闻 报 
道 进 一 划分 成 较 小 的 子 类 别 。 


2.3.5 ”可视化 复杂 对 象 和 关系 


旱 期， 可 视 化 技术 主要 用 于 数值 数据 。 最 近 ， 越 来 越 多 的 非 数 值 数据 ， 如 文本 和 社会 网 
络 已 经 成 为 可 利用 的 。 可 视 化 和 分 析 这 类 数据 引起 了 更 多 关注 。 

有 许多 新 的 可 视 化 技术 专门 用 于 这 类 数据 。 例 如 ，Web 上 许多 人 对 诸如 图 片 、 博 客 和 
产品 评论 加 标签 。 标 签 云 (tag cloud) 是 用 户 产生 的 标签 的 统计 量 的 可 视 化 。 在 标签 云 中 ， 
标签 通常 按 字母 次 序 或 用 户 指定 的 次 序列 举 。 图 2. 21 显示 了 一 个 对 Web 站 点 使 用 的 流行 标 


签 可 视 化 的 标签 云 。 
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2.20 新 闻 图 : 使 用 树 图 对 Google 新 闻 报 道 标题 可 视 化 。 资 料 来 源 : www. cs. umd. edu/ 
class/spring2005 /cmsc838s/viz4all/ss/newsmap. png 
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Al 2. 21 


tags/2010 年 1 月 23 日 快照 


通常 ,标签 云 的 用 法 有 两 种 。 首 先 ， 对 于 单个 术语 的 标签 云 ， 我们 可 以 使 用 标签 的 大 小 
表示 该 标签 被 不 同 的 用 户 用 于 该 术语 的 次 数 。 其 次 ， 在 多 个 术语 上 可 视 化 标签 统计 量 时 ， 我 





使 用 标签 云 对 Web 站 点 上 使 用 的 流行 标签 可 视 化 。 资 料 来 源 ; www. flickr. com/photos/ 


们 可 以 使 用 标签 的 大 小 表示 该 标签 用 于 的 术语 数 ， 即 标签 的 人 气 。 


43 


44 


第 2 章 认识 数据 


除了 复杂 的 数据 之 外 ， 数 据 项 之 间 的 复杂 关系 也 对 可 视 化 提出 了 挑战 。 例 如 ， 图 2. 22 
使 用 疾病 影响 图 来 可 视 化 疾病 之 间 的 相关 性 。 图 中 的 结 点 是 疾病 ， 每 个 结 点 的 大 小 与 对 应 疾 
病 的 流行 程度 成 正比 。 如 果 对 应 的 疾病 具有 强 相 关 性 ， 两 个 结 点 用 一 条 边 连 接 。 边 的 宽度 与 


L641 两 个 对 应 的 疾病 的 相关 强度 成 正比 。 
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图 2.22 NHANES 数据 集中 20 岁 以 上 的 人 的 疾病 影响 图 


概括 地 说 ， 可 视 化 为 探索 数据 提供 了 有 效 的 工具 。 我 们 介绍 了 一 些 流行 的 方法 和 它们 的 
基本 思想 。 有 许多 现成 的 工具 和 方法 。 此 外 ， 可 视 化 可 以 用 于 数据 挖掘 的 若干 方面 。 除 了 对 
数据 可 视 化 之 外 ， 可 视 化 也 可 以 用 于 表现 控 气 过程 、 从 挖掘 方法 得 到 的 模式 ， 以 及 用 户 与 数 
据 交互 。 可 视 数据 挖掘 是 一 个 重要 的 研究 开发 方向 。， 


2.4 度量 数据 的 相似 性 和 相 异 性 


在 诸如 聚 类 、 离 群 点 分 析 和 最 近邻 分 类 等 数据 挖掘 应 用 中 ， 我 们 需要 评估 对 象 之 间 相 互 
比较 的 相似 或 不 相似 程度 。 例 如 ， 商 店 希 望 搜索 顾客 对 象 秘 ,得 出 具有 类 似 特征 (例如 ， 
类 似 的 收入 、 居 住 区 域 和 年 龄 等 ) 的 顾客 组 。 这 些 信息 可 以 用 于 销售 。 徐 是 数据 对 象 的 集 
合 ， 使 得 同一 个 簇 中 的 对 象 互 相 相 似 ， 而 与 其 他 簇 中 的 对 象 相 出 。 离 群 点 分 析 也 使 用 基于 聚 
类 的 技术 ， 把 可 能 的 离 群 点 看 做 与 其 他 对 象 高 度 相 异 的 对 象 。 对 象 的 相似 性 可 以 用 于 最 近邻 
分 类 ， 对 给 定 的 对 象 ( 例 如 ， 患 者 ) 基于 它 与 模型 中 其 他 对 象 的 相似 性 赋予 一 个 类 标号 
(比如 说 ， 诊 断 结论 ) 。 

本 节 给 出 相似 性 和 相 异 性 度量 。 相 似 性 和 相 异 性 都 称 邻 近 性 (proximity)。 相 似 性 和 相 
异性 是 有 关联 的 。 典 型 地 ， 如 果 两 个 对 象 i 和 j 不 相似 ， 则 它们 的 相似 性 度量 将 返回 0。 相 
似 性 值 越 高 ， 对 象 之 间 的 相似 性 越 大 〈 趴 型 地 ， 值 1 指示 完全 相似 ， 即 对 象 是 等 同 的 ) 。 相 
异性 度量 正好 相反 。 如 果 对 象 相同 〈 因 而 远 非 不 相似 ) ， 则 它 返 回 值 0。 相 异性 值 越 高 ， 两 
个 对 象 越 相 异 。 

在 2.4.1 节 ， 我 们 提供 通常 用 于 上 述 应 用 的 两 种 数据 结构 : 数据 矩阵 (用 于 存放 数据 对 
R) 和 相 蜡 性 矩阵 (用 于 存放 数据 对 象 对 的 相 异 性 值 ) 。 我 们 切换 到 与 本 章 前 面 不 同 的 数据 
对 象 概念 ， 因 为 现在 我 们 要 处 理由 多 个 属性 刻画 的 对 象 。 然 后 ， 我 们 讨论 如 何 计算 被 标 称 属 
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性 (2.4.2 节 ) 、 二 元 属性 (2.4.3 节 ) 、 数 值 属 性 〈2.4.4 节 )、 序 数 属性 〈2.4.5 节 ) 和 
被 这 些 属 性 类 型 组 合 刻画 的 对 象 的 相 异 性 (2.4.6 节 )。2.4.7 WERNER KK, H ARK 
据 向 量 〈 如 表示 信息 检索 的 文档 的 词 频 向 量 ) 的 相似 性 度量 。 关 于 如 何 计算 相 异 性 的 知识 
对 于 研究 属性 是 有 用 的 ， 并 且 也 被 后 面 关于 来 类 (第 10 和 11 章 )、 离 群 点 分 析 (第 12 章 ) 
和 最 近邻 分 类 (第 9 章 ) 这 些 主题 所 引用 。 


2.4.1 ”数据 矩阵 与 相 异 性 矩阵 


在 2.2 节 ， 我 们 考察 了 研究 某 属 性 区 的 观测 值 的 中 心 趋势 和 散布 的 方法 。 那 里 ， 我 们 的 
对 象 是 一 维 的 ， 即 被 单个 属性 刻画 。 本 节 ， 我 们 谈论 的 对 和 象 被 多 个 属性 刻画 。 因 此 ， 我 们 和 需 
要 改变 记号 。 假 设 我 们 有 个 对 象 ( 如 人 、 商 品 或 课程 )， 被 p 个 属性 (又 称 维 或 特征 ， 如 
` 年龄、 身高 、 体 重 或 性 别 ) 刻画 。 这 些 对 象 是 x = (xn t s Kip) ， X, = (Xa, XQ, 0, 
Xo), SS, Hb x JER x; 的 第 j 个 属性 的 值 。 为 简单 计 ， 以 后 我 们 称 对 象 x, AMR io 
这 些 对 象 可 以 是 关系 数据 库 的 元 组 ， 也 称 数 据 样 本 或 特征 向 量 。 

通常 ， 主 要 的 基于 内 存 的 育 类 和 最 近邻 算法 都 在 如 下 两 种 数据 结构 上 运行 : 

o 数据 矩阵 (data matrix) 或 称 对 象 - 属性 结构 : 这 种 数据 结构 用 关系 表 的 形式 或 n x 

p(n 个 对 象 xp 个 属性 ) 和 矩阵 存放 个 数据 对 象 : 


Xii ... Xy . Xip 
Xa e Ry Ky (2.8) 
Xal ... Xap nee Xp 


每 行 对 应 于 一 个 对 象 。 在 记号 中 ， 我 们 可 能 使 用 /作为 遍 取 p 个 属性 的 下 标 。 
© 相 异 性 矩阵 (dissimilarity matrix) 或 称 对 象 - 对 象 结构 : 存放 nn 个 对 象 两 两 之 间 的 
邻近 度 (proximity) ， 通 常用 一 个 nxn 和 矩阵 表示 : 
0 
d(2,1) 0 
d(3,1) d(3,2) 0 (2.9) 


d(n,1) d(n,2) = = 0 
HP dCi, j) 是 对 象 i 和 对 象 j 之 间 的 相 异 性 或 “差别 ”的 度量 。 一 般 而 言 ，d(i, j) 
是 一 个 非 负 的 数值 ， 对 象 和 7 彼此 高 度 相似 或 “接近 ”时 ， 其 值 接近 于 0; 而 越 不 
Tl, 该 值 越 大 。 注 意 ,，d(i,i) =0， 即 一 个 对 象 与 自己 的 差别 为 0。 此 外 ,ad(i, j) = 
dj, i)o (ATARE, RITER d(j，i) ， 该 矩阵 是 对 称 的 。) 相 异 性 度量 的 讨 
论 遍 及 本 章 的 余下 部 分 。 
相似 性 度量 可 以 表示 成 相 异 性 度量 的 函数 。 例 如 ， 对 于 标 称 数据 
sim(i,j) = 1 - d(i,j) (2. 10) 
其 中 ，sim(i, j) 是 对 象 i 和 j 之 间 的 相似 性 。 本 章 的 其 余部 分 ， 我 们 也 对 相似 性 度量 进行 
讨论 。 
数据 矩阵 由 两 种 实体 或 “事物 ”组 成 ， 即 行 (RERA) MI (代表 属性 ) Ai, 
数据 矩阵 经 常 被 称 为 二 模 (two-mode) 矩阵 。 相 异性 符 阵 只 包含 一 类 实体 ， 因 此 被 称 为 单 模 
(one-mode) 和 矩阵。 许多 聚 类 和 最 近邻 算法 都 在 相 异 性 矩阵 上 运行 。 在 使 用 这 些 算 法 之 前 ， 


46 





[ 68 | 


第 2 章 认识 数据 


可 以 把 数据 和 矩阵 转化 为 相 异 性 和 矩阵。 


2.4.2 标 称 属性 的 邻近 性 度量 

标 称 属性 可 以 取 两 个 或 多 个 状态 (2.1.2 节 )。 例 如 ，map_color 是 一 个 标 称 属 性 ， 它 可 
以 有 比如 说 5 种 状态 : 红 、 黄 、 绿 、 粉 红 和 蓝 。 

设 一 个 标 称 属 性 的 状态 数目 是 W。 这 些 状态 可 以 用 字母 、 符 号 或 者 一 组 整数 (如 1，2，…， 
M) 表示 。 注 意 这 些 整 数 只 是 用 于 数据 处 理 ， 并 不 代表 任何 特定 的 顺序 。 

“如 何 计算 标 称 属性 所 刻画 的 对 象 之 间 的 相 异 性 ?” 两 个 对 象 ; 和 j 之 间 的 相 异 性 可 以 根 
据 不 匹配 率 来 计算 : 





d(i,j) = (2. 11) 


HP, m 是 匹配 的 数目 ( 即 i 和 j 取 值 相同 状态 的 属性 数 ) ， 而 p 是 刻画 对 象 的 属性 总 数 。 我 们 
可 以 通过 赋予 普 较 大 的 权重 ， 或 者 赋 给 有 较 多 状态 的 属性 的 匹配 更 大 的 权重 来 增加 m 的 影响 。 
例 2. 17 标 称 属性 之 间 的 相 异 性 。 假 设 我 们 有 表 2. 2 中 的 样本 数据 ， 不 过 只 有 对 象 标 
识 符 和 属性 test-1 是 可 用 的 ， 其 中 test-1 是 标 称 的 。 (在 后 面 的 例子 中 ， 我 们 将 会 用 到 test-2 
和 test-3。) 让 我 们 来 计算 相 异 性 矩阵 ， 即 (2.9) 式 
0 

d(2,1) 0 

d(3,1) d(3,2) 0 

d(4,1) d(4,2) d(4,3) 0 
由 于 我 们 只 有 一 个 标 称 属性 test-1, Æ (2.11) 式 中 ,我们 令 P =1， 使 得 当 对 象 ; 和 7 匹配 
H, dCi, j) =0; 当 对 象 不 同时 ，d(i, j)= 表 2.2 包含 混合 类 型 属性 的 样本 数据 表 





1, 于 是 ， 我 们 得 到 WR test-1 test-2 test-3 
0 标识 符 ( 标 称 的 ) (序数 的 ) (数值 的 ) 
1 0 1 A 优秀 45 
1 1 0 2 B 一 般 22 
0 1 1 0 
| 3 C 好 64 
由 此 ， 我 们 看 到 除了 对 象 1 和 4 ( 即 d(4， _ 
4 A 优秀 28 


1) =0) 之 外 ， 所 有 对 象 都 互 不 相似 。 m 
或 者 ， 相 似 性 可 以 用 下 式 计算 : 
sim(i,j) = 1 -d(i,j) = 机 (2. 12) 
标 称 属性 刻画 的 对 象 之 间 的 邻近 性 也 可 以 使 用 编码 方案 计算 。 标 称 属 性 可 以 按 以 下 方法 
用 非 对 称 的 二 元 属性 编码 : 对 M 种 状态 的 每 个 状态 创建 一 个 新 的 二 元 属性 。 对 于 一 个 具有 
给 定 状态 值 的 对 象 ， 对 应 于 该 状态 值 的 二 元 属性 设置 为 1， 而 其 余 的 二 元 属性 都 设置 为 0。 
例如 ， 为 了 对 标 称 属 性 map_color 进行 编码 ， 可 以 对 上 面 所 列 的 五 种 颜色 分 别 创建 一 个 二 元 
变量 。 如 果 一 个 对 象 是 黄色 (yellow) ， 则 yellow 属性 设置 为 1， 而 其 余 的 4 个 属性 都 设置 为 
0。 对 于 这 种 形式 的 编码 ， 可 以 用 下 面 讨论 的 方法 来 计算 邻近 度 。 


2.4.3 ”二 元 属性 的 邻近 性 度量 
我 们 考察 用 对 称 和 非 对 称 二 元 属性 刻画 的 对 象 间 的 相 异 性 和 相似 性 度量 。 
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回忆 一 下 ， 二 元 属性 只 有 两 种 状态 : 0 或 1， 其 中 0 表示 该 属性 不 出 现 ，1 表示 它 出 现 
(2.1.3 节 )。 例如， 给 出 一 个 描述 患者 的 属性 smoker, 1 表示 患者 抽烟 ， 而 0 表示 患者 不 抽 
烟 。 像 对 待 数值 一 样 来 处 理 二 元 属性 会 误导 。 因 此 ， 要 采用 特定 的 方法 来 计算 二 元 数据 的 相 
异性 。 


“那么 ， 如 何 计 算 两 个 二 元 属性 之 间 的 表 2.3 二 元 属性 的 列 联 表 
相 异 性 ?” 一 种 方法 涉及 由 给 定 的 二 元 数据 at Rj 
计算 相 异 性 矩阵。 如 果 所 有 的 二 元 都 被 看 做 0 
具有 相同 的 权重 ， 则 我 们 得 到 一 个 两 行 两 列 HR l tr 
的 列 联 表 一 一 表 2. 3， 其 中 g EMR i 和 j 都 ° : ! sti 





取 1 的 属性 数 , 7 是 在 对 象 : 中 取 1 、 在 对 象 ) 一 mMm P 
中 取 0 的 属性 数 ，* 是 在 对 象 ; 中 取 0、 在 对 象 /) 中 取 1 的 属性 数 ， 而 :是 对 象 ; 和 j 都 取 0 的 
属性 数 。 属 性 的 总 数 是 p， 其 中 p =g +r+s+t。 

回忆 一 下 ， 对 于 对 称 的 二 元 属性 ， 每 个 状态 都 同样 重要 。 基 于 对 称 二 元 属性 的 相 异 性 称 





做 对 称 的 二 元 相 异 性 。 如 果 对 象 i 和 j 都 用 对 称 的 二 元 属性 刻画 ， 则 ;和 7 的 相 异 性 为 Co] 
-à r+s 
d(i,j) = qtrtstt (2. 13) 


对 于 非 对 称 的 二 元 属性 ， 两 个 状态 不 是 同等 重要 的 ; 如 病理 化 验 的 阳性 (1) 和 阴性 
(0) 结果 。 给 定 两 个 非 对 称 的 二 元 属性 ， 两 个 都 取 值 1 的 情况 〈 正 匹配 ) 被 认为 比 两 个 都 
取 值 0 的 情况 〈 负 匹配 ) 更 有 意义 。 因 此 ， 这 样 的 二 元 属性 经 常 被 认为 是 “一 元 的 ”( 只 有 
一 种 状态 ) 。 基 于 这 种 属性 的 相 异 性 被 称 为 非 对 称 的 二 元 相 异 性 ， 其 中 负 匹配 数 ; 被 认为 是 
不 重要 的 ， 因 此 在 计算 时 被 忽略 ， 如 下 所 示 : 


.. r+s 
alj) = as (2.14) 


互补 地 ,我 们 可 以 基于 相似 性 而 不 是 基于 相 异 性 来 度量 两 个 二 元 属性 的 差别 。 例 如 ， 对 
Rei Aj 之 间 的 非 对 称 的 二 元 相似 性 可 以 用 下 式 计算 : 


mG DL -JJG 
sim(i,j) gir 1 - d(i,j) (2.15) 


(2.15) 式 的 系数 sim(i, j) 被 称 做 Jaccard 系数 ， 它 在 文献 中 被 广泛 使 用 。 

当 对 称 的 和 非 对 称 的 二 元 属性 出 现在 同一 个 数据 集中 时 ， 可 以 使 用 2.4.6 节 中 介绍 的 混 
合 属 性 方法 。 

例 2. 18 二 元 属性 之 间 的 相 异 性 。 假 设 一 个 患者 记录 表 ( 见 表 2.4) 包含 属性 name 
(HEX) gender( YERI), fever (发烧) 、cough (咳嗽 )、iest-1、iest-2、itiest-3 和 test-4， 其 中 
name ER RANA, gender 是 对 称 属 性 ， 其 余 的 属性 都 是 非 对 称 二 元 的 。 


表 2.4 用 二 元 属性 描述 的 患者 记录 的 关系 表 








name gender Sever cough test-1 test-2 test-3 test-4 
Jack M Y N P N N N 
Jim M Y Y N N N N 





对 于 非 对 称 属性 ， 值 Y(yes) 和 P( positive) 被 设置 为 1， 值 N(no IÈ negative) 被 设置 为 
0。 假设 对 象 (患者 ) 之 间 的 距离 只 基于 非 对 称 属性 来 计算 。 根 据 (2.14) 式 ， 三 个 患者 
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Jack, Mary 和 Jim 两 两 之 间 的 距离 如 下 : 











d(Jack ,Jim) = ] Lil = 0.67 

d(Jack Mary) = 5 a L 7 = 0.33 

d(Jim,Mary) = +2 = 0.75 
这 些 度量 显示 Jim 和 Mary 不 大 可 能 患 类 似 的 疾病 ， 因 为 他 们 具有 最 高 的 相 异 性 。 在 这 三 个 
患者 中 ，jJack 和 Mary 最 可 能 患 类 似 的 疾病 。 a 


2.4.4 ”数值 属性 的 相 异性 : 闵可夫 斯 基 距 离 


本 节 ， 我 们 介绍 广泛 用 于 计算 数值 属性 刻画 的 对 象 的 相 异 性 的 距离 度量 。 这 些 度量 包括 
欧 几 里 得 距离 、 受 哈 顿 距离 和 闵可夫 斯 基 距 离 。 

在 某 些 情况 下 ， 在 计算 距离 之 前 数据 应 该 规范 化 。 这 涉及 变换 数据 ， 使 之 落 人 较 小 的 公 
共 值 域 , 如 [-1, 1] 或 [0.0，1.0]。 例 如 ， 考 虑 heighi( 高 度 ) 属性 ， 它 可 能 用 米 或 英 
寸 测 量 。 一 般 而 言 ， 用 较 小 的 单位 表示 一 个 属性 将 导致 该 属性 具有 较 大 的 值 域 ， 因 而 趋向 于 
给 这 种 属性 更 大 的 影响 或 “权重 ”。 规 范 化 数据 试图 给 所 有 属性 相同 的 权重 。 在 特定 的 应 用 
中 ， 这 可 能 有 用 ， 也 可 能 没 用 。 数 据 规 范 化 方法 在 第 3 章 数 据 预 处 理 中 详细 讨论 。 

最 流行 的 距离 度量 是 欧 几 里 得 距离 ( 即 ， 直 线 或 “乌鸦 飞行 ”距离 )。 令 i= (x ，xz，…， 
Kip) 和 j=(xn，%xp，…，%%s) 是 两 个 被 p 个 数值 属性 描述 的 对 象 。 对 象 i 和 j 之 间 的 欧 几 里 
得 距离 定义 为 : 





d(i,j) = V(xa -—x,)? + (x2 一 a) tot (x, -x (2.16) 
另 一 个 著名 的 度量 方法 是 曼哈顿 〈 或 城市 块 ) 距离 ， 之 所 以 如 此 命名 ， 是 因为 它 是 城 
市 两 点 之 间 的 街区 距离 (如 ， 向 南 2 个 街区 ， 横 过 3 个 街区 ， 共 计 5 个 街区 ) 。 其 定义 如 下 ; 
d(i,j) = |x 一 | + | x2 一 YXP | +e + | x —% | (2. 17) 
欧 几 里 得 距离 和 曼哈顿 上 距离 都 满足 如 下 数学 性 质 : 
非 负 性 : d(i, j) 20: 距离 是 一 个 非 负 的 数值 。 
同一 性 : d(i, i) =0: 对 象 到 自身 的 距离 为 0。 x= (3,5) 
对 称 性 : dCi, j) =d(, i): 距离 是 一 个 对 称 函 数 。 
三 角 不 等 式 : dli, j)<d(i, k) +d(k, j): 从 对 象 : 
到 对 象 j 的 直接 距离 不 会 大 于 途经 任何 其 他 对 象 & 的 距离 。 


欧 氏 距离 
= (2? +39)" =3.61 


满足 这 些 条 件 的 测度 称 做 度量 (metric) ®, HE REIE Se EM 
性 被 其 他 三 个 性 质 所 列 售 。 pee 
例 2.19 KLEE BOSE, 4 x, = (1, 25-253 





2) 和 x, =(3, 5) 表示 如 图 2.23 所 示 的 两 个 对 象 。 两 点 


间 的 欧 几 里 得 距离 是 V2* +3” =3.61。 两 者 的 曼哈顿 距离 。 图 2.23 两 个 对 象 间 的 欧 几 里 得 
是 2+3 =5。 加 距离 和 曼哈顿 距离 





日 在 数学 文献 ， 特 别 是 在 测度 论 中 ，measure 被 译 为 “测度 ”，metric 被 译 为 “度量 " 。 在 计算 机 科学 文献 中 ，metric 
很 少 用 ， 而 measure 通常 译 为 “度量 "” 。 仅 当 measure 和 metric 同时 出 现时 ， 我 们 才 按 照 数学 的 习惯 翻译 ， 而 在 其 
他 情况 下 ， 我 们 采用 计算 机 科学 的 传统 译 法 。 一 一 译 者 注 
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闵可夫 斯 基 距 离 ( Minkowski distance) 是 欧 几 里 得 距离 和 曼哈顿 距离 的 推广 ， 定义 
如 下 : 





alij) = J leq -xn |) + [xa xa lot + ley -y (2. 18) 
其 中 , h 是 实数 ，h 宇 1。( 在 某 些 文献 中 ， 这 种 距离 又 称 L, 范 数 (norm), HH p 就 是 我 们 
的 h。 我 们 保留 p 作为 属性 数 ， 以 便于 本 章 的 其 余部 分 一 致 。 当 p =1 时 ， 它 表示 曼哈顿 距 
A (I, LEZO; 当 p =2 表示 欧 几 里 得 距离 ( 即 ，ZL, 范 数 ) 。 
上 确 界 距 离 (又 称 Lea, Lo MAILE BH (Chebyshev) 距离 ) 是 hw% 时 闵可夫 斯 
基 距离 的 推广 。 为 了 计算 它 ， 我 们 找 出 属性 f， 它 产生 两 个 对 象 的 最 大 值 差 。 这 个 差 是 上 确 
界 距离 ， 更 形式 化 地 定义 为 : 


P F p 
d(i,j) = lim( X la, - 2,1") = max | xy — xy | (2.19) 
一 oR f=) 


L, 范 数 又 称 一 致 范 数 (uniform norm) 。 
例 2. 20 上 确 界 距离 。 让 我 们 使 用 相同 的 数据 对 象 x, = (1, 2) 和 x,=(3, 5), 4 
图 2.23 所 示 。 第 二 个 属性 给 出 这 两 个 对 象 的 最 大 值 差 为 5 -2 =3。 这 是 这 两 个 对 象 间 的 上 确 








界 距 离 。 E 
如 果 对 每 个 变量 根据 其 重要 性 赋予 一 个 权重 ， 则 加 权 的 欧 几 里 得 距离 可 以 用 下 式 计算 : 
d(i,j) = yw, [xa — A |? +w, xs - 2 |? +- +w, | xp — Xj |? (2. 20) 
加 权 也 可 以 用 于 其 他 距离 度量 。 


2.4.5 序数 属性 的 邻近 性 度量 


序数 属性 的 值 之 间 具 有 有 意义 的 序 或 排 位 ， 而 相继 值 之 间 的 量 值 未 知 (2. 1.4 节 )。 例 
子 包 括 size 属性 的 值 序列 small，medium ，large。 序 数 属性 也 可 以 通过 把 数值 属性 的 值 域 划 
分 成 有 限 个 类 别 ， 对 数值 属性 离散 化 得 到 。 这 些 类 别 组 织 成 排 位 。 即 ， 数 值 属 性 的 值 域 可 以 
映射 到 具有 MM 个 状态 的 序数 属性 f。 例 如 ， 区 间 标 度 的 属性 temperature (摄氏 温度 ) 可 以 组 
织 成 如 下 状态 : -30 ~ -10，-10~10，10 ~30， 分 别 代表 cold temperature, moderate temper- 
ature 和 warm temperature。 令 序数 属性 可 能 的 状态 数 为 WM。 这 些 有 序 的 状态 定义 了 一 个 排 位 
Lo, Myo 

“如 何 处 理 序数 属性 ?” 在 计算 对 象 之 间 的 相 异 性 时 ， 序 数 属 性 的 处 理 与 数值 属性 的 非 
常 类 似 。 假 设 f 是 用 对 描述 个 对 象 的 一 组 序数 属性 之 一 。 关 于 了 的 相 蜡 性 计算 涉及 如 下 
步骤 : 

1. 第 i 个 对 象 的 f 值 为 xy， 属 性 f 有 MM 个 有 序 的 状态 ， 表 示 排 位 1，…，M,。 用 对 应 的 
排 位 rye tl, =, Mt 取代 zy。 

2. 由 于 每 个 序数 属性 都 可 以 有 不 同 的 状态 数 ， 所 以 通常 需要 将 每 个 属性 的 值 域 映射 到 
[0.0, 1.0] 上 ,以 便 每 个 属性 都 有 相同 的 权重 。 我 们 通过 用 zy 代替 第 i 个 对 象 的 ry 来 实现 
数据 规格 化 ， 其 中 


a= eI (2.21) 
3. 相 异 性 可 以 用 2. 4. 4 节 介绍 的 任意 一 种 数值 属性 的 距离 度量 计算 ， 使 用 zy 作为 第 ;个 


对 象 的 / 值 。 
例 2.21 序数 型 属性 间 的 相 异 性 。 假 定 我 们 有 前 面 表 2.2 中 的 样本 数据 ， 不 过 这 次 只 
有 对 象 标 识 符 和 连续 的 序数 属性 test-2 可 用 。iest-2 有 三 个 状态 ， 分 别 是 .ooir、good 和 excellent , 
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也 就 是 M, =3。 第 一 步 ， 如 果 我 们 把 test-2 的 每 个 值 蔡 换 为 它 的 排 位 ， 则 4 个 对 象 将 分 别 被 
赋值 为 3、1、2、3。 第 二 步 ， 通 过 将 排 位 1 映射 为 0.0， 排 位 2 映射 为 0.5， 排 位 3 映射 为 
1.0 来 实现 对 排 位 的 规格 化 。 第 三 步 ， 我 们 可 以 使 用 比如 说 欧 几 里 得 距离 ( (2.16) 式 ) 得 
到 如 下 的 相 异 性 矩阵: 

0 

1.0 0 

0.5 0.5 0 

0 1.0 0.5 0 
因此 ， 对 象 1 与 对 象 2 最 不 相似 ， 对 象 2 与 对 象 4 也 不 相似 ( 即 , d(2, 1) =1.0, d(4, 2) = 
1.0)。 这 符合 直观 ， 因 为 对 象 1 和 对 象 4 都 是 excellent。 对 象 2 Æ fair, FE test-2 的 值 域 的 另 
一 端 。 l E 

序数 属性 的 相似 性 值 可 以 由 相 异 性 得 到 : sim(i, j) =1~d(i, j)o 


2.4.6 混合 类 型 属性 的 相 异 性 . 

2.4.2 节 到 2.4.5 节 讨论 了 如 何 计算 由 相同 类 型 的 属性 描述 的 对 象 之 间 的 相 异 性 ， 其 中 
这 些 类 型 可 能 是 标 称 的 、 对 称 二 元 的 、 非 对 称 二 元 的 、 数 值 的 或 序数 的 。 然 而 ， 在 许多 实际 
的 数据 库 中 ， 对 象 是 被 混合 类 型 的 属性 描述 的 。 一 般 来 说 ， 一 个 数据 库 可 能 包含 上 面 列举 的 
所 有 属性 类 型 。 

“那么 ， 我 们 如 何 计 算 混 合 属性 类 型 的 对 象 之 间 的 相 异 性 ?” 一 种 方法 是 将 每 种 类 型 的 
属性 分 成 一 组 ， 对 每 种 类 型 分 别 进行 数据 挖掘 分 析 〈 例如， 聚 类 分 析 ) 。 如 果 这 些 分 析 得 到 
兼容 的 结果 ， 则 这 种 方法 是 可 行 的 。 然 而 ， 在 实际 的 应 用 中 ， 每 种 属性 类 型 分 别 分 析 不 大 可 
能 产生 兼容 的 结果 。 

一 种 更 可 取 的 方法 是 将 所 有 属性 类 型 一 起 处 理 ， 只 做 一 次 分 析 。 一 种 这 样 的 技术 将 不 同 
的 属性 组 合 在 单个 相 异 性 矩阵 中 ， 把 所 有 有 意义 的 属性 转换 到 共同 的 区 间 [0.0, 1.0] Eo 

假设 数据 集 包 含 p 个 混合 类 型 的 属性 ， 对 象 i 和 j 之 间 的 相 异 性 d(i, j) 定义 为 : 





dli, j) = & - (2.22) 


其 中 ,指示 符 6 =0， 如 果 xy 或 扩 缺 失 〈 即 对 象 ;或 对 象 ) 没有 属性 /的 度量 值 ) ， 或 者 wy = 
“y=0， 并且 /是 非 对 称 的 二 元 属性 ， 否则， 指示 符 OP =1。 属 性 /对 和 j 之 间 相 异性 的 贡 
献 dy 根据 它 的 类 型 计算 

。 /是 数值 的 : dP = — El, ep BRES TARRI R 

h” hf ANAS 

。 了 是 标 称 或 二 元 的 : WMR xyr, WdP =0; BA dY =1, 

/是 序数 的 计算 排 位 和 zy = GE. SPM zy 作为 数值 局 性 对 待 。 

上 面 的 步 避 与 我 们 所 见 到 的 各 种 单一 属性 类 型 的 处 理 相同 。 唯 -的 不 同 是 对 于 数值 属性 
的 处 理 ， 其 中 规格 化 使 得 变量 值 映射 到 了 区 间 [0.0，1.0]。 这 样 ， 即 便 描述 对 象 的 属性 具 
有 不 同类 型 ， 对 象 之 间 的 相 异 性 也 能 够 进行 计算 。 

例 2.22 混合 类 型 属性 间 的 相 异 性 。 我 们 来 计算 表 2. 2 中 对 象 的 相 异 性 矩阵 。 现 在 ， 
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我 们 将 考虑 所 有 属性 ， 它 们 具有 不 同类 型 。 在 例 2. 17 到 例 2. 21 中 ， 我 们 对 每 种 属性 计算 了 
相 异 性 和 矩阵。 处理 test-1 ( 它 是 标 称 的 ) 和 test-2 ( 它 是 序数 的 ) 的 过 程 与 上 文 所 给 出 的 处 
理 混合 类 型 属性 的 过 程 是 相同 的 。 因 此 ， 在 下 面 计算 (2.22) 式 时 ， 我 们 可 以 使 用 由 test-1 
和 test-2 所 得 到 的 相 异 性 矩阵 。 然 而 ， 我 们 首先 需要 对 第 3 个 属性 tesi-3 〈 它 是 数值 的 ) 计算 相 
异性 矩阵 。 即 ， 我 们 必须 计算 dy”。 根据 数值 属性 的 规则 ， 我 们 令 maxx, =64, min,x, =22。 
二 者 之 差 用 来 规格 化 相 异 性 矩阵 的 值 。 结 果 ，test-3 的 相 异 性 矩阵 为 : 

0 

0.55 0 

0.45 1.00 0 

0.40 0.14 0.86 0 

现在 就 可 以 在 计算 (2.22) 式 时 利用 这 三 个 属性 的 相 异 性 矩阵 了 。 对 于 每 个 属性 f， 指 


REAP =1。 例如， 我 们 得 到 d(3，1) = O.S +1(9.45) =0.65。 由 三 个 混合 类 


型 的 属性 所 描述 的 数据 得 到 的 结果 相 异 性 矩阵 如 下 : 

0 

0.85 0 

0.65 0.83 0 

0.13 0.71 0.79 0 
由 表 2.2， 基 于 对 象 1 和 对 象 4 在 属性 test-1 和 test-2 上 的 值 ， 我 们 可 以 直观 地 猜测 出 它们 两 
个 最 相似 。 这 一 猜测 通过 相 异 性 矩阵 得 到 了 印证 ， 因 为 4(4，1) 是 任何 两 个 不 同 对 象 的 最 
小 值 。 类 似 地 ， 相 异性 矩阵 表明 对 象 2 和 对 象 4 最 不 相似 。 m 


2.4.7 余弦 相似 性 
文档 用 数 以 千 计 的 属性 表示 ， 每 个 记录 文档 中 一 个 特定 词 (如 关键 词 ) 或 短语 的 频 度 。 
这 样 ， 每 个 文档 都 被 一 个 所 谓 的 词 频 向 量 (term- frequency vector) 表示 。 例 如 ， 在 表 2.5 
中 ， 我 们 看 到 文档 1 包含 词 team 的 5 个 实例 ， 而 hockey 出 现 3 次 。 正 如 计数 值 0 所 示 ， 
coach 在 整个 文档 中 未 出 现 。 这 种 数据 可 能 是 高 度 非 对 称 的 。 
表 2.5 文档 向 量 或 词 频 向 量 





文档 team coach hockey baseball soccer penalty score win loss season 
文档 1 5 0 3 0 2 0 0 2 0 0 
文档 2 3 0 2 0 1 1 0 1 0 1 
文档 3 0 7 0 2 1 0 0 3 0 0 
文档 4 0 1 0 0 1 2 2 0 3 0 





词 频 向 量 通常 很 长 ， 并 且 是 稀疏 的 〈 即 ， 它 们 有 许多 0 值 ) 。 使 用 这 种 结构 的 应 用 包 
括 信息 检索 、 文 本 文档 聚 类 、 生 物 学 分 类 和 基因 特征 映射 。 对 于 这 类 稀 栈 的 数值 数据 ， 
本 章 我 们 研究 过 的 传统 的 距离 度量 效果 并 不 好 。 例 如 ， 两 个 词 频 向 量 可 能 有 很 多 公共 0 
值 ， 意 味 对 应 的 文档 许多 词 是 不 共有 的 ， 而 这 使 得 它们 不 相似 。 我 们 需要 一 种 度量 ， 它 
关注 两 个 文档 确实 共有 的 词 ， 以 及 这 种 词 出 现 的 频率 。 换 言 之 ， 我 们 需要 忽略 0 匹配 的 数 
值 数据 度量 。 

余弦 相似 性 是 一 种 度量 ， 它 可 以 用 来 比较 文档 ， 或 针对 给 定 的 查询 词 向 量 对 文档 排序 。 
Ox 和 y AMIR, MRK REWER, RATA 
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sim(x,y) = (2. 23) 


x-y 
Hxl lyll 
其 中 ，||x 中 是 向 量 x (a, t, e, x) 的 欧 几 里 得 范 数 ， 定 义 为 Vette +e, 
从 概念 上 讲 ， 它 就 是 向 量 的 长 度 。 类 似 地 ，|? | 是 向 量 y 的 欧 几 里 得 范 数 。 该 度量 计算 向 
量 x 和 ?之 间 夹 角 的 余弦 。 余 弦 值 0 意味 两 个 向 量 哇 90" 夹 角 (EX), KALME. RZE 
越 接近 于 1， 夹 角 越 小 ， 向 量 之 间 的 匹配 越 大 。 注 意 ， 由 于 余弦 相似 性 度量 不 遵守 2.4.4 节 
定义 的 度量 测度 性 质 ， 因 此 它 被 称 做 非 度量 测度 (nonmetric measure) 。 

例 2.23 两 个 词 频 向 量 的 余弦 相似 性 。 假 设 x Aly 是 表 2.5 的 前 两 个 词 频 向 量 。 即 x = 
(5, 0, 3, 0, 2, 0, 0, 2,0, 0) 和 y=(3, 0, 2, 0, 1, 1, 0, 1, 0,1)。x My 的 相似 
性 如 何 ? 使 用 (2.23) 式 计 算 这 两 个 向 量 之 间 的 余弦 相似 性 ， 我 们 得 到 : 

X"y=5x3+0x0+3x2+0x0+2xl+0xl+0x0+2xl+0x0+0x1l 











= 25 
|x || = /5? +0? +3? +07 +2? +0 +0 +27 +0 +0 = 6.48 
lyi = V3 407424047 +1 +047 40°41 = 4.12 
sim( x,y) = 0.94 
因此 ， 如 果 使 用 余弦 相似 性 度量 比较 这 两 个 文档 ， 它 们 将 被 认为 是 高 度 相 似 的 。 a 


当 属 性 是 二 值 属性 时 ， 余 荡 相 似 性 函数 可 以 用 共享 特征 或 属性 解释 。 假 设 如 果 羡 = 1, 
则 对 象 x 具有 第 i 个 属性 。 于 是 , x "了 是 x 和 y 共同 具有 的 属性 数 , 而 |x | |y | 是 x 具有 的 属 
性 数 与 y 具有 的 属性 数 的 几何 均值 。 于 是 ，sim(z，?) 是 公共 属性 相对 拥有 的 一 种 度量 。 

对 于 这 种 情况 ， 余 弦 度 量 的 一 个 简单 的 变种 如 下 ; 


sim(x,y) = ye dy yoRy (2.24) 


这 是 x Aly 所 共有 的 属性 个 数 与 x 或 y 所 具有 的 属性 个 数 之 间 的 比率 。 这 个 函数 被 称 为 Tan- 
imoto 系数 或 Tanimoto 距离 ， 它 经 常用 在 信息 检索 和 生物 学 分 类 中 。 





2.5 小 结 


。 数据 集 由 数据 对 象 组 成 。 数 据 对 象 代表 实体 。 数 据 对 象 用 属性 描述 。 属 性 可 以 是 标 称 的 、 二 元 的 、 
序数 的 或 数值 的 。 

。 标 称 (或 分 类 ) 属性 的 值 是 符号 或 事物 的 名 字 ， 其 中 每 个 值 代表 某 种 类 别 、 编 码 或 状态 。 

。 二 元 属性 是 仅 有 两 个 可 能 状态 〈 如 1 和 0, 或 真 与 假 ) 的 标 称 属性 。 如 果 两 个 状态 同等 重要 ， 则 该 
属性 是 对 称 的 ， 否 则 它 是 非 对 称 的 。 

。 序数 属性 是 其 可 能 的 值 之 间 具 有 有 意义 的 序 或 排 位 ， 但 相继 值 之 间 的 量 值 未 知 的 属性 。 

。 数值 属性 是 定量 的 〈 即 它 是 可 测量 的 量 ) ， 用 整数 或 实数 值 表示 。 数 值 属性 的 类 型 可 以 是 区 间 标 度 
的 或 比率 标 度 的 。 区 间 标 度 属性 的 值 用 固定 、 相 等 的 单位 测量 。 比 率 标 度 属性 是 具有 固有 0 点 的 数 
值 属性 。 度 量 称 为 比率 标 度 的 ， 因 为 我 们 可 以 说 它们 的 值 比 测量 单位 大 多 少 倍 。 

© 基本 统计 描述 为 数据 预 处 理 提供 了 分 析 基 础 。 数 据 概括 的 基本 统计 度量 包括 度量 数据 中 心 趋势 的 均 
值 、 加 权 平 均 、 中 位 数 和 众 数 ， 以 及 度量 数据 散布 的 极 差 、 分 位 数 、 四 分 位 数 、 四 分 位 数 极 差 、 方 
差 和 标准 差 。 图 形 表示 〈 例 如， 爹 图 、 分 位 数 图 、 分 位 数 -分 位 数 图 、 直 方 图 和 散 点 图 ) 有 助 于 
数据 的 可 视 化 考察 ， 因 而 对 数据 预 处 理 和 挖 气 是 有 用 的 。 

。 数据 可 视 化 技术 可 以 是 基于 像素 的 、 基 于 几何 学 的 、 基 于 图 标的 或 层次 的 。 这 些 方法 用 于 多 维 关系 
数据 。 已 经 提出 了 可 用 于 复杂 数据 ( 如 文本 和 社会 网 络 ) 可 视 化 的 技术 。 

。 对 象 相似 性 和 相 异 性 度量 用 于 诸如 来 类 、 离 群 点 分 析 、 最 近邻 分 类 等 数据 挖 所 应 用 中 。 这 种 邻近 性 
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度量 可 以 对 本 章 介绍 的 每 种 属性 类 型 或 这 些 属 性 类 型 的 组 合 进行 计算 。 例 子 包 括 用 于 非 对 称 二 元 属 
性 的 Jaccard 系数 ， 用 于 数值 属性 的 欧 几 里 得 距离 、 受 哈 顿 距离 、 闵 可 夫 斯 基 距 离 和 上 确 界 距 离 。 
对 于 涉及 稀疏 数值 数据 向 量 (如 词 频 向 量 ) 的 应 用 ， 余弦 度量 和 Tanimoto 系数 通常 用 于 相似 性 
评估 。 


习题 
再 给 三 个 用 于 数据 散布 特征 的 常用 统计 度量 〈 即 未 在 本 章 讨论 的 ) ， 并 讨论 如 何在 大 型 数据 库 中 有 效 
地 计算 它们 。 
假设 所 分 析 的 数据 包括 属性 age， 它 在 数据 元 组 中 的 值 (以 递增 序 ) 为 13, 15, 16, 16, 19, 20, 


20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70, 
(a) 该 数据 的 均值 是 多 少 ? 中 位 数 是 什么 ? 

(b) 该 数据 的 众 数 是 什么 ? 讨论 数据 的 模 态 〈 即 二 模 、 三 模 等 ) 。 

(c) 该 数据 的 中 列 数 是 多 少 ? 

(d) 你 能 (粗略 地 ) 找 出 该 数据 的 第 一 个 四 分 位 数 〈08,) 和 第 三 个 四 分 位 数 (Q;) 吗 ? 
(e) 给 出 该 数据 的 五 数 概括 。 

(f) BWASENS 

(g) 分 位 数 -分 位 数 图 与 分 位 数 图 有 何不 同 ? 

设 给 定 的 数据 集 已 经 分 组 到 区 间 。 这 些 区 间 和 对 应 频率 如 下 所 示 : 








age frequency 
1~5 200 
6~15 450 
16 ~20 300 
21 ~50 1500 
51 ~80 700 
81 ~110 44 








计算 该 数据 的 近似 中 位 数 。 
假设 医院 对 18 个 随机 挑选 的 成 年 人 检查 年 龄 和 身体 肥胖 ， 得 到 如 下 结果 : 


age 23 23 27 27 39 41 47 49 50 
% fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2 
age 52 54 s | s 57 58 58 60 61 
34.6 42.5 28.8 | 33.4 30.2 34.1 32.9 41.2 35.7 


(a) 计算 age Mofa 的 均值 、 中 位 数 和 标准 差 。 

(b) 绘制 age 和 %fat HEA. 

(c) 绘制 基于 这 两 个 变量 的 散 点 图 和 q-q 图 。 

简要 概述 如 何 计算 被 如 下 属性 描述 的 对 象 的 相 异 性 : 

(a) 标 称 属性 。 

(b) 非 对 称 的 二 元 属性 。 
(c) 数值 属性 。 

(d) 词 频 向 量 。 

给 定 两 个 被 元 组 (22, 1, 42, 10) 和 (20, 0, 36, 8) 表示 的 对 象 。 
(a) 计算 这 两 个 对 象 之 间 的 欧 几 里 得 距离 。 

(b) 计算 这 两 个 对 象 之 间 的 曼哈顿 距离 。 

(c) 使 用 g =3， 计 算 这 两 个 对 象 之 间 的 闵可夫 斯 基 距 离 。 

(d) 计算 这 两 个 对 象 之 间 的 上 确 界 距离 。 
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2.7 中 位 数 是 数据 分 析 中 最 重要 的 整体 度量 之 一 。 提 出 几 种 中 位 数 近似 计算 方法 。 在 不 同 的 参数 设置 下 ， 
分 析 它 们 各 自 的 复杂 度 ， 并 确定 它们 的 实际 近似 程度 。 此 外 ， 提 出 一 种 启发 式 策略 ,平衡 准 确 性 与 复 
杂 人 性 ， 然 后 把 它 用 于 你 给 出 的 所 有 方法 。 

2.8 在 数据 分 析 中 ， 重 要 的 是 选择 相似 性 度量 。 然 而 ， 不 存在 广泛 接受 的 主观 相似 性 度量 ， 结 果 可 能 因 所 
用 的 相似 性 度量 而 异 。 虽 然 如 此 ， 在 进行 某 种 变换 后 ， 看 来 似乎 不 同 的 相似 性 度量 可 能 等 价 。 
假设 我 们 有 如 下 二 维 数据 集 : 

















(a) 把 该 数据 看 做 二 维 数据 点 。 给 定 一 个 新 数据 点 x = (1.4，1. 6) 作为 查询 点 ， 使 用 欧 几 里 得 距离 、 
曙 哈 顿 距 离 、 上 确 界 距 离 和 余弦 相似 性 ， 基 于 与 查询 点 的 相似 性 对 数据 库 的 点 排 位 。 

(b) 规格 化 该 数据 集 ， 使 得 每 个 数据 点 的 范 数 等 于 1。 在 变换 后 的 数据 上 使 用 欧 几 里 得 距离 对 诸 数据 
点 排 位 。 


2.7 文献 注释 


描述 性 数据 概括 方法 远 在 计算 机 出 现 之 前 就 一 直 在 统计 学 界 研究 。 统 计 学 描述 性 数据 挖掘 方法 包括 
[81] Freedman, Pisani 和 Purves[ FPP07 ] ，Devore[ Dev95 ] 。 对 于 使 用 盒 图 、 分 位 数 图 、 分 位 数 - 分 位 数 图 、 散 点 
图 和 loess 曲线 可 视 化 数据 ， 见 Cleveland [ Cle93 ] 。 

数据 可 视 化 技术 的 开创 性 工作 在 Tufte 的 The Visual Display of Quantitative Information | Tuf83 ] 、Envisio- 
ning Information| Tuf90] 和 Visual Explanations: Images and Quantities, Evidence and Narrative{ Tuf97 ] 中 给 出 ; 
此 外 ， 还 有 Bertin 的 Graphics and Graphic Information Processing | Ber81 | Cleveland 的 Visualizing Data 
[ Cle93] LAR Fayyad Grinstein 和 Wierse 编辑 的 Information Visualization in Data Mining and Knowledge Dis- 
covery[ FGWO1 | 。 

可 视 化 方面 的 主要 会 议和 研讨 会 包括 ACM Human Factors in Computing Systems (CHI). Visualization 和 
International Symposium on Information Visualization。 可 视 化 方面 的 研究 也 发 表 在 Transactions on Visualization 
and Computer Graphics, Journal of Computational and Graphical Statistics 和 IEEE Computer Graphics and Applica- 
tions 上 。 

已 经 为 数据 控 握 开发 了 许多 图 形 用 户 界面 和 可 视 化 工具 ， 这 些 可 以 在 各 种 数据 挖掘 产品 中 找到 。 一 些 
数据 挖掘 的 书籍 ， 如 Westphal 和 Blaxton 的 Data Mining Solutions WB98] ， 给 出 一 些 很 好 的 例子 和 可 视 快 照 。 
关于 可 视 化 的 综述 ， 参 见 Keim 的 “Visual techniques for exploring databases” [ Kei97 ] 。 

相似 性 和 距离 度量 在 许多 研究 聚 类 分 析 的 教科 书 中 都 有 介绍 ， 包 括 Hartigan[ Har75] Jain 和 Dubes 
[JD88] Kaufman 和 Rousseeuw[ KR90] ， 以 及 Arabie, Hubert 和 de Soete[ AHS96 ] 。 把 不 同类 型 的 属性 组 合 

到 一 个 相似 性 矩阵 的 方法 由 Kaufman 和 Rousseeuw 介绍 [KR90] 。 
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数据 预 处 理 


当今 现实 世界 的 数据 库 极 易 受 噪声 、 缺 失 值 和 不 一 致 数据 的 侵扰 ， 因 为 数据 库 太 大 
(常常 多 达 数 兆 兆 字 节 ， 甚 至 更 多 ) ， 并 且 多 半 来 自 多 个 异种 数据 源 。 低 质量 的 数据 将 导致 
低 质 量 的 挖 据 结 果 。“ 如何 对 数据 进行 预 处 理 ， 提 高 数据 质量 ， 从 而 提高 控 气 结果 的 质量 ? 
如 何 对 数据 预 处 理 ， 使 得 挖掘 过 程 更 加 有 效 、 更 加 容易 ?” 

有 大 量 数据 预 处 理 技术 。 数 据 清理 可 以 用 来 清除 数据 中 的 噪声 ， 纠 正 不 一 致 。 数 据 集成 
将 数据 由 多 个 数据 源 合 并 成 一 个 一 致 的 数据 存储 ， 如 数据 仓库 。 数 据 归 约 可 以 通过 如 聚集 、 
删除 元 余 特 征 或 聚 类 来 降低 数据 的 规模 。 数 据 变换 〈 例 如 ,规范 化 ) 可 以 用 来 把 数据 压缩 
到 较 小 的 区 间 ， 如 0.0 到 1.0。 这 可 以 提高 涉及 距离 度量 的 挖掘 算法 的 准确 率 和 效率 。 这 些 
技术 不 是 相互 排斥 的 ， 可 以 一 起 使 用 。 例 如 ， 数 据 清理 可 能 涉及 纠正 错误 数据 的 变换 ， 如 通 
过 把 一 个 数据 字段 的 所 有 项 都 变换 成 公共 格式 进行 数据 清理 。 

在 第 2 章 ， 我 们 学 习 了 不 同 的 数据 类 型 ， 以 及 如 何 使 用 基本 统计 描述 来 研究 数据 的 特征 。 
这 些 有 助 于 识别 不 正确 的 值 和 离 群 点 ， 在 数据 清理 和 数据 集成 阶段 是 有 用 的 。 在 挖掘 之 前 使 用 
这 些 数据 处 理 技术 ,可 以 显著 地 提高 挖掘 模式 的 总 体质 量 ,减少 实际 挖掘 所 需要 的 时 间 。 

本 章 中 ,我 们 在 3. 1 节 介绍 数据 预 处 理 的 基本 概念 。 数 据 预 处 理 的 方法 组 织 如 下 : 数据 
清理 (3. 2 节 ) 、 数 据 集成 (3.3 节 ) 、 数 据 归 约 〈3. 4 节 ) 和 数据 变换 (3.5 节 ) 。 


3.1 数据 预 处 理 : 概述 


本 节 概 述 数据 预 处 理 。3. 1. 1 节 解 释 定义 数据 质量 的 一 些 要 素 。 这 是 数据 预 处 理 的 动机 
所 在 。3. 1. 2 节 概 述 数据 预 处 理 的 主要 任务 。 


3.1.1 数据 质量 : 为 什么 要 对 数据 预 处 理 


数据 如 果 能 满足 其 应 用 要 求 ， 那 么 它 是 高 质量 的 。 数 据 质量 涉及 许多 因素 ， 包 括 准 确 
性 、 完 整 性 、 一 致 性 、 时 效 性 、 可 信 性 和 可 解释 性 。 

想象 你 是 AllElectronics 的 经 理 ， 人 负责 分 析 你 的 部 门 的 公司 销售 数据 。 你 立即 着 手 进行 这 
项 工作 ， 仔 细 地 研究 和 审查 公司 的 数据 库 和 数据 仓库 ， 识 别 并 选择 应 当 包 含 在 你 的 分 析 中 的 
属性 或 维 (例如 ，item、price 和 units_sold)。 你 注意 到 ， 许 多 元 组 在 一 些 属性 上 没有 值 。 对 
于 你 的 分 析 ， 你 希望 知道 每 种 销售 商品 是 否 做 了 降价 销售 广告 ， 但 是 发 现 这 些 信息 根本 未 被 
记录 。 此 外 ， 你 的 数据 库 系统 用 户 已 经 报告 某 些 事务 记录 中 的 一 些 错误 、 不 寻常 的 值 和 不 一 
致 性 。 换 言 之， 你 希望 使 用 数据 挖掘 技术 分 析 的 数据 是 不 完整 的 (缺少 属性 值 或 某 些 感 兴 
趣 的 属性 ， 或 仅 包 含 聚集 数据 ) 、 不 正确 的 或 含 噪声 的 (包含 错误 或 存在 偏离 期 望 的 值 ) ， 
并 且 是 不 一 致 的 《例如 ， 用 于 商品 分 类 的 部 门 编码 存在 差异 ) 。 欢 迎 来 到 现实 世界 ! 

这 种 情况 冰 明 了 数据 质量 的 三 个 要 素 : 准确 性 、 完 整 性 和 一 致 性 。 不 正确 、 不 完整 和 不 
一 致 的 数据 是 现实 世界 的 大 型 数据 库 和 数据 仓库 的 共同 特点 。 导 致 不 正确 的 数据 〈 即 具有 
不 正确 的 属性 值 ) 可 能 有 多 种 原因 : 收集 数据 的 设备 可 能 出 故障 ; 人 或 计算 机 的 错误 可 能 
在 数据 输入 时 出 现 ， 当 用 户 不 希望 提交 个 人 信息 时 ， 可 能 故意 向 强制 输入 字段 输入 不 正确 的 
值 〈 例 如 ， 为 生日 选择 默认 值 “1 月 1 日 ") 。 这 称 为 被 掩盖 的 缺失 数据 。 错 误 也 可 能 在 数 
据 传输 中 出 现 。 这 些 可 能 是 由 于 技术 的 限制 ， 如 用 于 数据 转移 和 消耗 同步 缓冲 区 大 小 的 限 
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制 。 不 正确 的 数据 也 可 能 是 由 命名 约定 或 所 用 的 数据 代码 不 一 致 ， 或 输入 字段 (如 日 期 ) 
的 格式 不 一 致 而 导致 的 。 重 复元 组 也 需要 数据 清理 。 

不 完整 数据 的 出 现 可 能 有 多 种 原因 。 有 些 感 兴趣 的 属性 ， 如 销售 事务 数据 中 顾客 的 信 
息 ， 并 非 总 是 可 以 得 到 的 。 其 他 数据 没有 包含 在 内 ， 可 能 只 是 因为 输入 时 认为 是 不 重要 的 。 
相关 数据 没有 记录 可 能 是 由 于 理解 错误 ， 或 者 因为 设备 故障 。 与 其 他 记录 不 一 致 的 数据 可 能 
已 经 被 删除 。 此 外 ， 历 史 或 修改 的 数据 可 能 被 忽略 。 缺 失 的 数据 ， 特 别 是 某 些 属性 上 缺失 值 
的 元 组 ， 可 能 需要 推导 出 来 。 

注意 ， 数 据 质量 依赖 于 数据 的 应 用 。 对 于 给 定 的 数据 库 ， 两 个 不 同 的 用 户 可 能 有 完全 不 
同 的 评 佑 。 例 如 ， 市 场 分 析 人 员 可 能 访问 上 面 提 到 的 数据 库 ， 得 到 顾客 地 址 的 列表 。 有 些 地 
址 已 经 过 时 或 不 正确 ， 但 毕竟 还 有 80% 的 地 址 是 正确 的 。 市 场 分 析 人 员 考 虑 到 对 于 目标 市 
场 营 销 而 言 ， 这 是 一 个 大 型 顾客 数据 库 ， 因 此 对 该 数据 库 的 准确 性 还 算 满意 ， 尽 管 作为 销售 
经 理 ， 你 发 现 数据 是 不 正确 的 。 

时 效 性 (timeliness) 也 影响 数据 的 质量 。 假 设 你 正在 监控 AllElectronics 的 高 端 销售 代 
理 的 月 销售 红利 分 布 。 然 而 ， 一 些 销 售 代理 未 能 在 月 末 及 时 提交 他 们 的 销售 记录 。 月 底 之 后 还 
有 大 量 更 正 与 调整 。 在 下 月 的 一 段 时 间 内 ， 存 放 在 数据 库 中 的 数据 是 不 完整 的 。 然 而 ， 一 旦 所 
有 的 数据 被 接收 之 后 ， 它 就 是 正确 的 。 月 底数 据 未 能 及 时 更 新 对 数据 质量 具有 负面 影响 。 

影响 数据 质量 的 另外 两 个 因素 是 可 信 性 和 可 解释 性 。 可 信和 性 (believability) 反映 有 多 少 
数据 是 用 户 信 赖 的 ， 而 可 解释 性 (interpretability) 反映 数据 是 否 容 易 理解 。 假 设 在 某 一 时 刻 
数据 库 有 一 些 错误 ， 之 后 都 被 更 正 。 然 而 ， 过 去 的 错误 已 经 给 销售 部 门 的 用 户 造成 了 问题 ， 
因此 他 们 不 再 相信 该 数据 。 数 据 还 使 用 了 许多 会 计 编码 ， 销 售 部 门 并 不 知道 如 何 解释 它们 。 
即便 该 数据 库 现在 是 正确 的 、 完 整 的 、 一 致 的 、 及 时 的 ,但 是 由 于 很 差 的 可 信 性 和 可 解释 
性 ， 销 售 部 门 的 用 户 仍然 可 能 把 它 看 成 低 质量 的 数据 。 


3. 1.2 数据 预 处 理 的 主要 任务 


本 节 我 们 考察 数据 预 处 理 的 主要 步骤 ， 即 数据 清理 、 数 据 集成 、 数 据 归 约 和 数据 变换 。 

数据 清理 (data cleaning) 例 程 通过 填写 缺失 的 值 ， 光 滑 噪声 数据 ， 识 别 或 删除 离 群 点 ， 
并 解决 不 一 致 性 来 “清理 ”数据 。 如 果 用 户 认 为 数据 是 脏 的 ， 则 他 们 可 能 不 会 相信 这 些 数 
据 上 的 控 气 结果。 此 外 ， 脏 数据 可 能 使 挖掘 过 程 陷 和 人 混乱， 导致 不 可 靠 的 输出 。 尽 管 大 部 分 
挖掘 例 程 都 有 一 些 过 程 用 来 处 理 不 完整 数据 或 噪声 数据 ， 但 是 它们 并 非 总 是 鲁 棒 的 。 相 反 ， 
它们 更 致力 于 避免 被 建 模 的 函数 过 分 拟 合 数据 。 因 此 ， 一 个 有 用 的 预 处 理 步骤 旨 在 使 用 数据 
清理 例 程 处 理 你 的 数据 。3. 2 节 讨 论 清理 数据 的 方法 。 

回 到 你 在 AllElectronics 的 任务 ， 假 定 你 想 在 分 析 中 使 用 来 自 多 个 数据 源 的 数据 。 这 涉及 
集成 多 个 数据 库 、 数 据 立 方 体 或 文件 ， 即 数据 集成 (data integration) 。 代 表 同 一 概念 的 属性 
在 不 同 的 数据 库 中 可 能 具有 不 同 的 名 字 ， 导 致 不 一 致 性 和 完 余 。 例 如 ， 关 于 顾客 标识 的 属性 
在 一 个 数据 库 中 可 能 是 customer_id， 而 在 另 一 个 中 为 cust_id。 命 名 的 不 一 致 还 可 能 出 现在 属 
性 值 中 。 例 如 ， 同 一 个 人 的 名 字 可 能 在 第 一 个 数据 库 中 登记 为 “Bil”， 在 第 二 个 数据 库 中 
登记 为 “William”， 而 在 第 三 个 数据 库 中 登记 为 “B”。 此 外 ， 你 可 能 会 觉察 到 ， 有 些 属性 
可 能 是 由 其 他 属性 导出 的 〈 例 如 ， 年 收入 ) 。 包 含 大 量 宛 余数 据 可 能 降低 知识 发 现 过 程 的 性 
能 或 使 之 陷 和 人 混乱。 显然 ， 除 了 数据 清理 之 外 ， 必 须 采 取 措 施 避 免 数 据 集成 时 的 宛 余 。 通 
常 ， 在 为 数据 仓库 准备 数据 时 ， 数 据 清 理 和 集成 将 作为 预 处 理 步 又 进行 。 还 可 以 再 次 进行 数 
据 清理 ， 检 测 和 删 去 可 能 由 集成 导致 的 宛 余 。 

随 着 更 深入 地 考虑 数据 ， 你 可 能 会 问 自己 :“ 我 为 分 析 而 选取 的 数据 集 是 巨大 的 ， 这 肯 
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定 会 降低 数据 挖掘 过 程 的 速度 。 有 什么 办 法 能 降低 数据 集 的 规模 ， 而 又 不 损害 数据 挖 振 的 结 
果 吗 ?” 数 据 归 约 (data reduction) 得 到 数据 集 的 简化 表示 ， 它 小 得 多 ,但 能 够 产生 同样 的 
(或 几乎 同样 的 ) 分 析 结 果 。 数 据 归 约 策略 包括 维 归 约 和 数值 归 约 。 

在 维 归 约 中 ， 使 用 数据 编码 方案 ， 以 便 得 到 原始 数据 的 简化 或 “压缩 ”表示 。 例 子 包 
括 数据 压缩 技术 〈 例 如 ， 小 波 变 换 和 主 成 分 分 析 ) ， 以 及 属性 子 集 选择 (例如 ， 去 掉 不 相关 
的 属性 ) 和 属性 构造 (例如 ， 从 原来 的 属性 集 导 出 更 有 用 的 小 属性 集 ) 。 

在 数值 归 约 中 ， 使 用 参数 模型 ( 例如， 回归 各 对 数 线性 模型 ) 或 非 参 数 模型 (例如 ， 
直方 图 、 聚 类 、 抽 样 或 数据 聚集 ) ， 用 较 小 的 表示 取代 数据 。 数 据 归 约 是 3. 4 节 的 主题 。 

回 到 你 的 数据 ， 假 设 你 决定 使 用 诸如 神经 网 络 、 最 近邻 分 类 或 聚 类 ?这 样 的 基于 距离 的 
挖掘 算法 进行 你 的 分 析 。 如 果 待 分 析 的 数据 已 经 规范 化 ， 即 按 比例 映射 到 一 个 较 小 的 区 间 
(例如 ，[0.0，1.0])， 则 这 些 方法 将 得 到 更 好 的 结果 。 例 如 ,你 的 顾客 数据 包含 年 龄 和 年 
薪 属 性 。 年 薪 属 性 的 取 值 范围 可 能 比 年 龄 大 得 多 。 这 样 ， 如 果 属 性 未 规范 化 ， 则 距离 度量 在 
年 薪 上 所 取 的 权重 一 般 要 超过 距离 度量 在 年 龄 上 所 取 的 权重 。 离 散 化 和 概念 分 层 产生 也 可 能 
是 有 用 的 ， 那 里 属性 的 原始 值 被 区 间或 较 高 层 的 概念 所 取代 。 例 如 ， 年 龄 的 原始 值 可 以 用 较 
高 层 的 概念 〈 如 青年 、 中 年 和 老年 ) 取代 。 

对 于 数据 挖掘 而 言 ， 离 散 化 与 概念 分 层 产 生 是 强 有 力 的 工具 ， 因 为 它们 使 得 数据 的 挖掘 
可 以 在 多 个 抽象 层 上 进行 。 规 范 化 、 数 据 离散 化 和 概念 分 层 产生 都 是 某 种 形式 的 数据 变换 
(data transformation) 。 你 很 快 就 会 意识 到 ， 数 据 变 换 操作 是 引导 挖掘 过 程 成 功 的 附加 的 预 处 
理 过 程 。 数 据 集成 和 数据 离散 化 将 在 3. 5 节 讨 论 。 

图 3. 1 概括 了 这 里 介绍 的 数据 预 处 理 步 又 。 注 意 ， 上 面 的 分 类 不 是 互 斥 的 。 例 如 ， 元 余 
数据 的 删除 既是 一 种 数据 清理 形式 ， 也 是 一 种 数据 归 约 。 
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数据 清理 ma ae 
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数据 变换 -2, 32, 100, 59, 48 —» -0.02, 0.32, 1.00, 0.59, 0.48 


图 3.1 数据 预 处 理 的 形式 


日 ”神经 网 络 和 最 近邻 分 类 在 第 9 章 介 绍 ， 而 聚 类 在 第 10 章 和 第 11 章 讨论 。 


57 


87 
88 


58 


第 3 章 数据 预 处 理 


总 之 ， 现 实 世 界 的 数据 一 般 是 脏 的、 不 完整 的 和 不 一 致 的 。 数 据 巴 处 理 技 术 可 以 改进 数 
据 的 质量 ， 从 而 有 助 于 提高 其 后 的 挖掘 过 程 的 准确 率 和 效率 。 由 于 高 质量 的 决策 必然 依赖 于 
高 质量 的 数据 ， 因 此 数据 预 处理 是 知识 发 现 过 程 的 重要 步骤 。 检 测 数据 异常 ， 尽 早 地 调整 数 
据 ， 并 归 约 待 分 析 的 数据 ， 将 为 决策 带 来 高 回报 。 


3.2 数据 清理 

现实 世界 的 数据 一 般 是 不 完整 的 、 有 噪声 的 和 不 一 致 的 。 数 据 清理 例 程 试图 填充 缺失 的 
值 、 光 滑 噪 声 并 识别 离 群 点 、 纠 正 数据 中 的 不 一 致 。 本 节 我 们 将 研究 数据 清理 的 基本 方法 。 
3.2.1 节 考 察 处 理 缺 失 值 的 方法 。3. 2. 2 节 解 释 数据 光滑 技术 。3. 2. 3 节 讨 论 将 数据 清理 作 
为 一 个 过 程 的 方法 。 


3.2.1 缺失 值 


想象 你 需要 分 析 AllElectronics 的 销售 和 顾客 数据 。 你 注意 到 许多 元 组 的 一 些 属性 (如 
顾客 的 income) 没有 记录 值 。 怎 样 才能 为 该 属性 填 上 缺失 的 值 ? 我 们 看 看 下 面 的 方法 。 

(1) 忽略 元 组 : 当 缺 少 类 标号 时 通常 这 样 做 (假定 挖 扎 任 务 涉及 分 类 ) 。 除 非 元 组 有 多 个 
属性 缺少 值 ， 否 则 该 方法 不 是 很 有 效 。 当 每 个 属性 缺失 值 的 百分比 变化 很 大 时 ， 它 的 性 能 特别 
差 。 采 用 忽略 元 组 ， 你 不 能 使 用 该 元 组 的 剩余 属性 值 。 这 些 数据 可 能 对 手头 的 任务 是 有 用 的 。 

(2) 人 工 填写 缺失 值 : 一 般 来 说 ， 该 方法 很 费时 ， 并 且 当 数据 集 很 大 、 缺 失 很 多 值 时 ， 
该 方法 可 能 行 不 通 。 

(3) 使 用 一 个 全 局 常量 填充 缺失 值 : 将 缺失 的 属性 值 用 同一 个 常量 (An “Unknown” 
或 - % ) 和 替换。 如 果 缺 失 的 值 都 用 如 “UVminown” 幸 换 ， 则 挖掘 程序 可 能 误 以 为 它们 形成 了 
一 个 有 趣 的 概念 ， 因 为 它们 都 具有 相同 的 值 “Unknown”。 因 此 ， 尽 管 该 方法 简单 ， 但 
是 并 不 十 分 可 靠 。 

(4) 使 用 属性 的 中 心 度量 ( 如 均值 或 中 位 数 ) 填充 缺失 值 : 第 2 章 讨论 了 中 心 趋势 度 
量 ， 它 们 指示 数据 分 布 的 “中 间 ” 值 。 对 于 正常 的 〈 对 称 的 ) 数据 分 布 而 言 ， 可 以 使 用 均 
值 ， 而 倾斜 数据 分 布 应 该 使 用 中 位 数 (2. 2 节 ) 。 例 如 ， 假 定 AllElectronics 的 顾客 收入 的 数 
据 分 布 是 对 称 的 ， 并 且 平 均 收入 为 56 000 美元 ， 则 使 用 该 值 蔡 换 income 中 的 缺失 值 。 

(5) 使 用 与 给 定 元 组 属 同一 类 的 所 有 样本 的 属性 均值 或 中 位 数 : 例如 ， 如 果 将 顾客 按 
credit_risk 分 类 ， 则 用 具有 相同 信用 风险 的 顾客 的 平均 收入 替换 income 中 的 缺失 值 。 如 果 给 
定 类 的 数据 分 布 是 倾斜 的 ， 则 中 位 数 是 更 好 的 选择 。 

(6) 使 用 最 可 能 的 值 填充 缺失 值 : 可 以 用 回归 、 使 用 贝 叶 斯 形式 化 方法 的 基于 推理 的 
工具 或 决策 树 归 纳 确 定 。 例 如 ， 利 用 数据 集中 其 他 顾客 的 属性 ， 可 以 构造 一 棵 决策 树 ， 来 预 
测 income 的 缺失 值 。 决 策 树 和 贝 叶 斯 推理 分 别 在 第 8 章 和 第 9 章 详细 介绍 ， 而 回归 在 3.4.5 
节 介 绍 。 

FE (3) ~ 方法 (6) 使 数据 有 偏 ， 填 人 的 值 可 能 不 正确 。 然 而 ， 方 法 (6) 是 最 流行 
的 策略 。 与 其 他 方法 相 比 ， 它 使 用 已 有 数据 的 大 部 分 信息 来 预测 缺失 值 。 在 估计 income 的 
缺失 值 时 ， 通 过 考虑 其 他 属性 的 值 ， 有 更 大 的 机 会 保持 income 和 其 他 属性 之 间 的 联系 。 

重要 的 是 要 注意 ,在 某 些 情况 下 ， 缺 失 值 并 不 意味 数据 有 错误 。 例 如 ， 在 申请 信用 卡 
时 ， 可 能 要 求 申请 人 提供 驾驶 执照 号 。 没 有 驾驶 执照 的 申请 者 可 能 自然 地 不 填写 该 字段 。 表 
格 应 当 允 许 填 表 人 使 用 诸如 “不 适用 ”等 值 。 软 件 例 程 也 可 以 用 来 发 现 其 他 空 值 (例如 ， 
“不 知道 ”"、“?” 或 “无 ”)。 理 想 情况 下 ， 每 个 属性 都 应 当 有 一 个 或 多 个 关于 空 值 条 件 的 规 
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则 。 这 些 规则 可 以 说 明 是 否 允 许 空 值 ， 并 且 / 或 者 说 明 这 样 的 空 值 应 当 如 何 处 理 或 转换 。 如 
果 在 业务 处 理 的 稍 后 步骤 提供 值 ， 字 段 也 可 能 故意 留 下 空白 。 因 此 ， 尽 管 在 得 到 数据 后 ， 我 
们 可 以 尽 我 们 所 能 来 清理 数据 ， 但 好 的 数据 库 和 数据 输入 设计 将 有 助 于 在 第 一 现场 把 缺失 值 
或 错误 的 数量 降 至 最 低 。 


3.2.2 ”噪声 数据 

“ARRET IRA (noise) 是 被 测量 的 变量 的 随机 误差 或 方差 。 在 第 2 章 中 ， 我 们 
看 到 了 如 何 使 用 基本 统计 描述 技术 (例如 ， 盒 图 和 散 点 图 ) 和 数据 可 视 化 方法 来 识别 可 能 
代表 噪声 的 离 群 点 。 给 定 一 个 数值 属性 ， 如 price， 我 们 怎样 才能 “光滑 ”数据 、 去 掉 噪 声 ? 
我 们 看 看 下 面 的 数据 光滑 技术 。 

分 箱 (binning): 分 箱 方法 通过 考察 数据 的 “近邻 ”( 即 周围 的 值 ) 来 光滑 有 序数 据 值 。 
这 些 有 序 的 值 被 分 布 到 一 些 “ 桶 ”或 箱 中 。 由 于 分 箱 方法 考察 近邻 的 值 ， 因 此 它 进 行 局 部 
光滑 。 图 3. 2 表示 了 一 些 分 箱 技 术 。 在 该 例 prie (美元 ) 排序 后 的 数据 : 4,8, 15.21.21. 24 25,28 34 











中 ，price 数据 首先 排序 并 被 划分 到 大 小 为 3 的 [一 一 一 一 一 一 一 
等 频 的 箱 中 〈 即 每 个 箱包 含 3 个 值 ) 。 对 于 用 AH | BES) A: 
箱 均值 光滑 ， 箱 中 每 一 个 值 都 被 替换 为 箱 中 的 me 2 
均值 。 例 如 ， 箱 1 中 的 值 4、8 和 15 的 均值 是 箱 3: 25,28, 34 
9。 因 此 ， 该 箱 中 的 每 一 个 值 都 被 替换 为 9。 
类 似 地 ， 可 以 使 用 用 箱 中 位 数 光滑 ， 此 PARRER: 
时 ， 箱 中 的 每 一 个 值 都 被 替换 为 该 箱 的 中 位 me oon 
数 。 对 于 用 箱 边界 光滑 ， 给 定 箱 中 的 最 大 和 最 箱 3: 29,29, 29 
小 值 同样 被 视 为 箱 边 界 ， 而 箱 中 的 每 一 个 值 都 
被 替换 为 最 近 的 边界 值 。 一 般 而 言 ， 宽 度 越 BRIE: 
大 ,光滑 效果 越 明显 。 箱 也 可 以 是 等 宽 的 ， 其 wo. 1 2124 
中 每 个 箱 值 的 区 间 范 围 是 常量 。 分 箱 也 可 以 作 箱 3: 25,25,34 
为 一 种 离散 化 技术 使 用 ,将 在 3.5 节 进 一 步 
讨论 。 图 3.2 数据 光滑 的 分 箱 方法 


回归 (regression): 也 可 以 用 一 个 函数 拟 合 数据 来 光滑 数据 。 这 种 技术 称 为 回归 。 线 性 
回归 涉及 找 出 拟 合 两 个 属性 (RER) 的 “最 佳 ”直线 ， 使 得 一 个 属性 可 以 用 来 预测 另 一 
个 。 多 元 线性 回归 是 线性 回归 的 扩充 ， 其 中 涉及 的 属性 多 于 两 个 ,并 且 数 据 拟 合 到 一 个 多 维 
曲面 。 回 归 将 在 3.4.5 节 进 一 步 讨 论 。 

离 群 点 分 析 (outlier analysis) ， 可 以 通过 如 聚 类 来 检测 离 群 点 。 聚 类 将 类 似 的 值 组 织 成 
WE “GR”. HU, RRR SOMA (QU 3. 3 所 示 ) 。 第 12 章 专门 研 
究 离 群 点 分 析 。 

许多 数据 光滑 的 方法 也 用 于 数据 离散 化 (一 种 数据 变换 形式 ) 和 数据 归 约 。 例 如 ， 上 
面 介绍 的 分 箱 技术 减少 了 每 个 属性 的 不 同 值 的 数量 。 对 于 基于 逻辑 的 数据 挖掘 方 法 (如 决 
策 树 归纳 ) ， 它 反复 地 在 排序 后 的 数据 上 进行 比较 ， 这 充当 了 一 种 形式 的 数据 归 约 。 概 念 分 
层 是 一 种 数据 离散 化 形式 ， 也 可 以 用 于 数据 光滑 。 例 如 ，Price 的 概念 分 层 可 以 把 实际 的 
price 的 值 映 射 到 便宜 、 适 中 和 吊 责 ， 从 而 减少 了 控 据 过 程 需要 处 理 的 值 的 数量 。 数 据 离散 
化 将 在 3. 5 节 讨论 。 有 些 分 类 方法 〈 例 如 ， 神 经 网 络 ) 有 内 置 的 数据 光滑 机 制 。 分 类 是 第 8 
章 和 第 9 章 的 主题 。 
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图 3.3 顾客 在 城市 中 的 位 置 的 2-D 图 ， 显 示 了 3 TRR. 
可 以 将 离 群 点 看 做 落 在 簇 集合 之 外 的 值 来 检测 


3.2.3 数据 清理 作为 一 个 过 程 


缺失 值 、 品 声 和 不 一 致 性 都 导致 不 正确 的 数据 。 迄 今 为 止 ， 我 们 已 经 考察 了 处 理 缺 失 数 
据 和 光滑 数据 的 技术 。“ 但 是 ， 数 据 清 理 可 能 是 一 项 繁重 的 任务 。 数 据 清理 作为 一 个 过 程 怎 
么 样 ? 如 何 正确 地 进行 这 项 工作 ? 有 没有 工具 来 帮助 做 这 件 事 ?” 

数据 清理 过 程 的 第 一 步 是 偏差 检测 (discrepancy detection ) 。 导 致 偏差 的 因素 可 能 有 多 
种 ， 包 括 具 有 很 多 可 选 字段 的 设计 糟糕 的 输入 表单 、 人 为 的 数据 输入 错误 、 有 意 的 错误 
(例如 ， 不 愿意 泄露 自己 的 信息 )， 以 及 数据 退化 (例如 ， 过 时 的 地 址 )。 偏 差 也 可 能 源 于 不 
一 致 的 数据 表示 和 编码 的 不 一 致使 用 。 记 录 数 据 的 设备 的 错误 和 系统 错误 是 另 一 种 偏差 源 。 
当 数 据 (不 适当 地 ) 用 于 不 同 于 当初 的 目的 时 ， 也 可 能 出 现 错误 。 数 据 集成 也 可 能 导致 不 
一 致 〈 例 如 ， 当 给 定 的 属性 在 不 同 的 数据 库 中 具有 不 同 的 名 称 时 )9 。 

“那么 ， 如 何 进行 偏差 检测 ?” 作 为 开始 ， 使 用 任何 你 可 能 具有 的 关于 数据 性 质 的 知识 。 
这 种 知识 或 “关于 数据 的 数据 ” 称 做 元 数据 。 那 里 ， 我 们 可 以 使 用 在 第 2 章 中 获得 的 关于 
数据 的 知识 。 例 如 ， 每 个 属性 的 数据 类 型 和 定义 域 是 什么 ? 每 个 属性 可 接受 的 值 是 什么 ?对 
于 把 握 数 据 趋势 和 识别 异常 ，2. 2 节 介 绍 的 数据 的 基本 统计 描述 是 有 用 的 。 例 如 ， 找 出 均 
值 、 中 位 数 和 众 数 。 数 据 是 对 称 的 还 是 倾斜 的 ? 值 域 是 什么 ?” 所 有 的 值 都 落 在 期 望 的 区 间 内 
吗 ? 每 个 属性 的 标准 差 是 多 少 ? 远离 给 定 属性 均值 超过 两 个 标准 差 的 值 可 能 标记 为 可 能 的 离 
群 点 。 属 性 之 间 存 在 已 知 的 依赖 吗 ? 在 这 一 步 ， 你 可 以 编写 自己 的 程序 或 使 用 我 们 稍 后 将 讨 
论 的 某 种 工具 。 由 此 ， 你 可 能 发 现 噪声 、 离 群 点 和 需要 考察 的 不 寻常 的 值 。 

作为 一 位 数据 分 析 人 员 ， 你 应 当 警 惕 编码 使 用 的 不 一 致 和 数据 表示 的 不 一 致 问题 ( 例 
Wm, RÆ “2010/12/25” Al “25/12/2010”"), FRITH (field overloading) 是 另 一 种 错误 
源 ， 通 常 是 由 如 下 原因 导致 的 : 开发 者 将 新 属性 的 定义 挤 进 已 经 定义 的 属性 的 未 使 用 〈 位 ) 
部 分 〈 例 如 ， 使 用 一 个 属性 未 使 用 的 位 ， 该 属性 取 值 已 经 使 用 了 32 位 中 的 31 位 )。 

还 应 当 根 据 唯一 性 规则 、 连 续 性 规则 和 空 值 规则 考察 数据 。 唯 一 性 规则 是 说 给 定 属 性 的 





O 数据 集成 和 删除 由 集成 导致 的 元 余数 据 将 在 3. 3 节 进一步 讨论 。 
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每 个 值 都 必须 不 同 于 该 属性 的 其 他 值 。 连 续 性 规则 是 说 属性 的 最 低 和 最 高 值 之 间 没 有 缺失 的 
值 ， 并 且 所 有 的 值 还 必须 是 唯一 的 (例如 ,检验 数 )。 空 值 规则 说 明 空 白 、 问 号 、 特 殊 符 号 
或 指示 空 值 条件 的 其 他 串 的 使 用 (例如 ， 一 个 给 定 属性 的 值 何 处 不 能 用 ) ， 以 及 如 何 处 理 这 
样 的 值 。 正 如 3.2. 1 节 所 提 及 的 ， 缺 失 值 的 原因 可 能 包括 : (1) 被 要 求 提供 属性 值 的 人 拒绝 
提供 和 /或 发 现 没有 所 要 求 的 信息 (例如 ， 非 驾驶 员 未 填写 license_number EE); (2) 数据 输 
人 者 不 知道 正确 的 值 ; (3) 值 在 稍 后 提供 。 空 值 规则 应 当 说 明 如 何 记录 空 值 条 件 ， 例 如 数 
值 属性 存放 0， 字 符 属性 存放 空白 或 其 他 使 用 方便 的 约定 (诸如 “不 知道 ”或 “?” 这 样 的 
项 应 当 转 换 成 空白 ) 。 

有 大 量 不 同 的 商业 工具 可 以 帮助 我 们 进行 偏差 检测 。 数 据 清洗 工具 (data scrubbing 
tool) 使 用 简单 的 领域 知识 (如 邮政 地 址 知识 和 拼写 检查 )， 检 查 并 纠正 数据 中 的 错误 。 在 
清理 多 个 数据 源 的 数据 时 ， 这 些 工具 依赖 于 分 析 和 模糊 匹配 技术 。 数 据 审计 工具 (data au- 
diting tool) 通过 分 析 数 据 发 现 规则 和 联系 ， 并 检测 违反 这 些 条 件 的 数据 来 发 现 偏差 。 它 们 
是 数据 挖掘 工具 的 变种 。 例 如 ， 它 们 可 以 使 用 统计 分 析 来 发 现 相关 性 ， 或 通过 聚 类 识别 离 群 
点 。 它 们 也 可 以 使 用 2. 2 节 介 绍 的 基本 统计 描述 。 

有 些 数据 不 一 致 可 以 使 用 其 他 材料 人 工地 加 以 更 正 。 例 如 ， 数 据 输 入 时 的 错误 可 以 使 用 
纸 上 的 记录 加 以 更 正 。 然 而 ， 大 部 分 错误 需要 数据 变 搁 。 也 就 是 说 ,一 日 发 现 偏差 .， 通常 我 
们 需要 定义 并 使 用 (一 系列 ) 变换 来 纠正 它们 。 

商业 工具 可 以 支持 数据 变换 步骤 。 数 据 迁 移 工具 (data migration tool) 允许 说 明 简 单 的 
变换 ， 如 将 串 “gender” 用 “sex” $f, ETL ( Extraction/Transformation/ Loading， 提 取 / 变 
BRA) 工具 允许 用 户 通 过 图 形 用 户 界面 (GUI) 说 明 变 换 。 通 常 ， 这 些 工 具 只 支持 有 限 
的 变换 ， 因 此 我 们 可 能 需要 为 数据 清理 过 程 的 这 一 步 编写 定制 的 程序 。 

偏差 检测 和 数据 变换 (纠正 偏差 〉 的 两 步 过 程 迭 代 执 行 。 然 而 ， 这 一 过 程 容易 出 错 并 
且 费 时 。 有 些 变 换 可 能 导致 更 多 偏差 。 有 些 府 大 的 偏差 可 能 在 其 他 偏差 解决 之 后 才能 检测 
到 。 例 如 ， 年 份 字段 上 的 打字 错误 “20010” 可 能 在 所 有 日 期 值 都 变换 成 统一 格式 之 后 才 会 
浮现 。 变 换 常常 以 批 处 理 方式 进行 ， 用 户 等 待 而 无 反馈 信息 。 仅 当 变换 完成 之 后 ， 用 户 才能 
回 过 头 来 检查 是 否 错误 地 产生 了 新 的 异常 。 通 常 ， 需 要 多 次 和 迭代 才能 使 用 户 满 意 。 不 能 被 给 
定 变换 自动 处 理 的 元 组 通常 写 到 一 个 文件 中 ， 而 不 给 出 失败 的 原因 解释 。 这 样 ， 整 个 数据 清 
理 过 程 也 缺乏 交互 性 。 

新 的 数据 清理 方法 强调 加 强 交互 性 。 例 如 ，Potter's Wheel 是 一 种 公开 的 数据 清理 工具 ， 
它 集 成 了 偏差 检测 和 数据 变换 。 用 户 在 一 个 类 似 于 电子 数据 表 的 界面 上 ， 通 过 编辑 和 调试 每 
个 变换 ， 一 次 一 步 ， 逐 渐 构 造 一 个 变换 序列 。 变 换 可 以 通过 图 形 或 提供 的 例子 说 明 。 结 果 立 
即 显示 在 屏幕 上 的 记录 中 。 用 户 可 以 撤销 变换 ， 使 得 导致 的 额外 错误 的 变换 可 以 被 “ 清 
除 " 。 该 工具 在 最 近 一 次 变换 的 数据 视图 上 自动 地 进行 偏差 检测 。 随 着 偏差 的 发 现 ， 用 户 逐 
渐 地 开发 和 精 化 变换 ， 从 而 使 数据 清理 更 有 效 。 

另 一 种 提高 数据 清理 交互 性 的 方法 是 开发 数据 变换 操作 的 规范 说 明 语 言 。 这 种 工作 关注 
定义 SQL 的 扩充 和 使 得 用 户 可 以 有 效 地 表达 数据 清理 具体 要 求 的 算法 。 

随 着 我 们 对 数据 的 了 解 的 加 深 ， 不 断 更 新 元 数据 以 反映 这 种 知识 很 重要 。 这 有 助 于 加 快 
在 相同 数据 的 未 来 版 本 上 的 数据 清理 速度 。 


3.3 数据 集成 
数据 挖 气 经 常 需要 数据 集成 一 一 合并 来 自 多 个 数据 存储 的 数据 。 小 心 集成 有 助 于 减少 结 
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果 数 据 集 的 元 余 和 不 一 致 。 这 有 助 于 提高 其 后 挖 气 过程 的 准确 性 和 速度 。 

数据 语义 的 多 样 性 和 结构 对 数据 集成 提出 了 巨大 的 挑战 。 如 何 匹配 多 个 数据 源 的 模式 和 
MA? 这 实质 上 是 实体 识别 问题 ， 在 3. 3. 1 节 讨论 。 有 相关 属性 吗 ? 3.3.2 节 介 绍 数值 和 标 
称 数 据 的 相关 性 检验 。3. 3. 3 节 介 绍 元 组 重复 。 最 后 ，3. 3.4 节 讨 论 数据 值 的 冲突 和 解决 
方法 。 


3.3.1 实体 识别 问题 


数据 分 析 任 务 多 半 涉 及 数据 集成 。 数 据 集成 将 多 个 数据 源 中 的 数据 合并 ， 存 放 在 一 个 一 
致 的 数据 存储 中 ， 如 存放 在 数据 仓库 中 。 这 些 数据 源 可 能 包括 多 个 数据 库 、 数 据 立 方 体 或 一 
般 文件 。 

在 数据 集成 时 ， 有 许多 问题 需要 考虑 。 模 式 集成 和 对 象 匹配 可 能 需要 技巧 。 来 自 多 个 信 
息 源 的 现实 世界 的 等 价 实体 如 何 才 能 “匹配 ”? 这 涉及 实体 识别 问题 。 例 如 ， 数 据 分 析 者 或 
计算 机 如 何 才 能 确信 一 个 数据 库 中 的 customer_id 与 男 一 个 数据 库 中 的 cust_number 指 的 是 相 
同 的 属性 ? 每 个 属性 的 元 数据 包括 名 字 、 含 义 、 数 据 类 型 和 属性 的 允许 取 值 范 围 ， 以 及 处 理 
空白 、 零 或 NULL 值 的 空 值 规则 ( 见 3. 2 节 ) 。 这 样 的 元 数据 可 以 用 来 帮助 避免 模式 集成 的 
错误 。 元 数据 还 可 以 用 来 帮助 变换 数据 (例如 ，pay_zype 的 数据 编码 在 一 个 数据 库 中 可 以 是 
“E” 和 “SS ， 而 在 另 一 个 数据 库 中 是 1 和 2)。 因 此 ， 这 一 步 也 与 前 面 介绍 的 数据 清理 
有 关 。 

在 集成 期 间 ， 当 一 个 数据 库 的 属性 与 另 一 个 数据 库 的 属性 匹配 时 ， 必 须 特 别 注意 数据 的 
结构 。 这 和 旨 在 确保 源 系统 中 的 函数 依赖 和 参照 约束 与 目标 系统 中 的 匹配 。 例 如 ， 在 一 个 系统 
中 ，discount 可 能 用 于 订单 ， 而 在 另 一 个 系统 中 ， 它 用 于 订单 内 的 商品 。 如 果 在 集成 之 前 未 
发 现 ， 则 目标 系统 中 的 商品 可 能 被 不 正确 地 打折 。 


3.3.2 元 余 和 相关 分 析 


宛 余 是 数据 集成 的 另 一 个 重要 问题 。 一 个 属性 〔 例 如， 年 收入 ) 如 果 能 由 另 一 个 或 另 
一 组 属性 “ “导出 ”， 则 这 个 属性 可 能 是 元 余 的 。 属 性 或 维 命 名 的 不 一 致 也 可 能 导致 结果 数据 
集中 的 元 余 。 

有 些 宛 余 可 以 被 相关 分 析 检测 到 。 给 定 两 个 属性 ， 这 种 分 析 可 以 根据 可 用 的 数据 ， 度 量 

一 个 属性 能 在 多 大 程度 上 蕴涵 另 一 个 。 对 于 标 称 数据 ， 我 们 使 用 X”( 卡 方 ) 检验 。 对 于 数 
值 属性 ， 我 们 使 用 相关 系数 (correlation coefficient) 和 协 方差 (covariance ) ， 它 们 都 评估 一 
个 属性 的 值 如 何 随 另 一 个 变化 。 

1. 标 称 数 据 的 X” 相关 检验 

对 于 标 称 数据 ， REA min CE7) RRAN, Bi 
A 有 个 不 同 值 w ，o ，…，e&.， BAr SAMO, ba, 。 用 4 和 B 描述 的 数据 元 组 
可 以 用 一 个 相依 表 显 示 ， 其 中 4 的 e 个 值 构成 列 ， BA MMA o> Cae B) 表示 属 
性 4 取 值 a;、 属 性 8 取 值 5 的 联合 事件 , Bl (A=a,, B= 65;)。 每 个 可 能 的 (4;，B,) 联合 
事件 都 在 表 中 有 自己 的 单元 。 X 值 (又 称 Pearson xz 统计 量 ) 可 以 用 下 式 计算 ; 

v= yy Gina” ) (3.1) 
其 中 ，o, 是 联合 事件 (A, B) 的 观测 频 度 〈 即 实际 计数 ) Te ge (A, B) 的 期 望 频 度 ， 
可 以 用 下 式 计 算 : 
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e; = count(A = a;) x count(B = b,) (3.2) 
其 中 ,nn 是 数据 元 组 的 个 数 ，couni(4 =a) 是 4 上 具有 值 a 的 元 组 个 数 ， 而 count(B =b) 
是 B 上 具有 值 5 的 元 组 个 数 。(3. 1) 式 中 的 和 在 所 有 7 xc 个 单元 上 计算 。 注 意 ， 对 XX 值 贡 
献 最 大 的 单元 是 其 实际 计数 与 期 望 计 数 很 不 相同 的 单元 。 

X 统计 检验 假设 4 和 B 是 独立 的 。 检 验 基 于 显著 水 平 ， 具有 自由 度 (r-1) x(c-1), 
我 们 将 用 例 3. 1 解释 该 统计 量 的 使 用 。 如 果 可 以 拒绝 该 假设 ， 则 我 们 说 4 和 B 是 统计 相 
关 的 。 

例 3.1 使 用 X 的 标 称 属性 的 相关 分 析 。 假 设 调 查 了 1500 个 人 ， 记 录 了 每 个 人 的 性 





别 。 每 个 人 对 他 们 喜爱 的 阅读 材料 类 型 是 否 表 3.1 例 3.1 的 数据 的 2 x2 相依 表 

是 小 说 进行 投票 。 这 样 ,我 们 有 两 个 属性 “名 O a 
gender 和 preferred_reading。 每 种 可 能 的 联合 小 说 250(90) 200(360) 450 
事件 的 观测 频率 (或 计数 ) 汇总 在 表 3.1 所 非 小 说 50(210) 1000(840) 1050 
显示 的 相依 表 中 ， 其 中 括号 中 的 数 是 期 望 频 At 300 1200 1500 


Z, 期 望 频率 根据 两 个 属性 的 数据 分 布 ， 用 iż: gender 和 preferred_reading 相关 吗 ? 
(3.2) 式 计算 。 

使 用 (3.2) R, 我 们 可 以 验证 每 个 单元 的 期 望 频率 。 例 如 ， 单 元 ( 男 ， 小 说 ) 的 期 望 
频率 是 

_ count( 男 ) x count( 小 说 ) _ 300 x 450 -= 90 
n 1500 

如 此 等 等 。 注 意 ， 在 任意 行 ， 期 望 频率 的 和 必须 等 于 该 行 总 观测 频率 ， 并 且 任 意 列 的 期 望 频 
率 的 和 也 必须 等 于 该 列 的 总 观测 频率 。 

使 用 计算 的 (3.1) 式 ， 我 们 得 到 

y -= (250 — 90)? , 650 - 210)? , (200 _- 360)? + (1000 - 840 )* 
90 210 360 840 
= 284. 44 + 121.90 + 71.11 + 30.48 = 507. 93 

对 于 这 个 2 x2 WR, AH BER (2 -1)(2 -1) =1。 对 于 自由 度 1, 在 0.001 的 置信 水 平 下 ， 
拒绝 假设 的 值 是 10. 828 ( 取 自 分 布 上 百分点 表 ， 通 常 可 以 在 任意 统计 学 教科 书 中 找到 ) 。 
由 于 我 们 计算 的 值 大 于 该 值 ， 因 此 我 们 可 以 拒绝 gender 和 preferred_reading 独立 的 假设 ， 并 
断言 对 于 给 定 的 人 群 ， 这 两 个 属性 是 〈 强 ) 相关 的 。 m 

2. 数值 数据 的 相关 系数 

对 于 数值 数据 ， 我 们 可 以 通过 计算 属性 4 和 8B 的 相关 系数 (又 称 Pearson RH RH, 
Pearson’s product moment coefficient) ， 用 发 明 者 Karl Pearson 的 名 字 命名 ) ， 估 计 这 两 个 属性 
的 相关 度 rs， 








È, (a, ~ A) (b; ~ B) È (ab) ~ nd B 


7 二 3. 3 
AB nO ag NO aT g ( ) 


其 中 , 是 元 组 的 个 数 ，a; Fb; 分 别 是 元 组 i 在 4 和 B 上 的 值 , AMI BIENE A 和 和 8 的 均值 ， 
Os 和 es 分 别 是 4 AB 的 标准 差 ( 在 2.2.2 WX), i Elab) EAB 又 积 和 《〈 即 对 于 每 
个 元 组 ，4 的 值 乘 以 该 元 组 B 的 值 )。 注 意 ，~-1<rms< +l WE KTO, 则 4 和 B 是 
正 相 关 的 ， 这 意味 着 4 值 随 B 值 的 增加 而 增加 。 该 值 越 大 ， 相 关 性 越 强 ( 即 每 个 属性 蕴涵 
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另 一 个 的 可 能 性 越 大 ) 。 因 此 ， 一 个 较 高 的 mx.s 值 表明 4 (RB) 可 以 作为 元 余 而 被 删除 。 

如 果 该 结果 值 等 于 0， 则 4 和 B 是 独立 的 ， 并 且 它 们 之 间 不 存在 相关 性 。 如 果 该 结果 值 
NFO, 则 4 和 8B 是 负 相 关 的 ,一 个 值 随 另 一 个 减少 而 增加 。 这 意味 着 每 一 个 属性 都 阻止 另 
一 个 出 现 。 散 点 图 也 可 以 用 来 观察 属性 之 间 的 相关 性 (2. 2.3 节 )。 例 如 ， 图 2. 8 的 散 点 图 
分 别 显示 了 正 相 关 和 人 负 相 关 数 据 ， 而 图 2. 9 显示 了 不 相关 数据 。 

注意 ， 相 关 性 并 不 蕴涵 因果 关系 。 也 就 是 说 ， 如 果 4 和 B 是 相关 的 ， 这 并 不 意味 着 4 
导致 BB 或 B 导致 4。 例如， 在 分 析 人 口 统计 数据 库 时 ， 我 们 可 能 发 现 一 个 地 区 的 医院 数 与 汽 
车 盗 穷 数 是 相关 的 。 这 并 不 意味 一 个 导致 另 一 个 。 实 际 上 ， 二 者 必然 地 关联 到 第 三 个 属 
性 一 一 人 口 。 

3. 数值 数据 的 协 方差 

在 概率 论 与 统计 学 中 ， 协 方差 和 方差 是 两 个 类 似 的 度量 ,评估 两 个 属性 如 何 一 起 变化 。 
考 上 处 两 个 数值 属性 4、B 和 次 观测 的 集合 (al，b1)，…，(a,，5,)1。4 MB 的 均值 又 
分 别称 为 4 和 8 的 期 望 值 ， 即 








A 和 8B 的 协 方差 (covariance) 定义 为 


(a; = A) (0, - B) 
Cov(A,B) = E((A-—A)(B-B)) = 一 -一 (3.4) 


n 


如 果 我 们 把 rs 〈 协 相关 系数 ) 的 (3.3) 式 与 (3.4) 式 相 比较 ， 则 我 们 看 到 
rg = Cov( A,B) (3.5) 
CO40 8 
其 中 ， o, 和 rs 分 别 是 4 M B 的 标准 差 。 还 可 以 证 明 
Cov(A,B) = E(A.B) -AB (3.6) 
该 式 可 以 简化 计算 。 
”对 于 两 个 趋向 于 一 起 改变 的 属性 4 和 已 ， 如 果 4 大 于 4 (4 的 期 望 值 ) ， 则 B 很 可 能 大 于 
B (B 的 期 望 值 ) 。 因 此 , 4 和 8B 的 协 方差 为 正 。 另 一 方面 ， 如 果 当 一 个 属性 小 于 它 的 期 望 值 
时 ， 另 一 个 属性 趋向 于 大 于 它 的 期 望 值 , 则 4 和 B 的 协 方差 为 负 。 

如 果 4 和 8B 是 独立 的 ( 即 它 们 不 具有 相关 性 ) N WJ E(A > B) =E(4) + E(B). At, th 
方差 为 Cov(4,，B) =E(A+ B) - AB =E(A) + E(B) - AB =0。 然 而 ,其 逆 不 成 立 。 某 些 随 
机 变量 (属性 ) 对 可 能 具有 协 方差 0， 但 是 不 是 独立 的 。 仅 在 某 种 附加 的 假设 下 (如 数据 遵 
守 多 元 正 态 分 布 ) ， 协 方差 0 蕴涵 独立 性 。 

例 3.2 数值 属性 的 协 方差 分 析 。 考 虑 表 3.2， 它 给 出 了 在 5 个 时 间 点 观测 到 的 AllElec- 
tronics 和 HighTech 〈 某 高 技术 公司 ) 的 股票 价格 的 简化 例子 。 如 果 股 市 受 相 同 的 产业 趋势 影 
响 ， 它 们 的 股价 会 一 起 涨 跌 吗 ? 

6+5+4+3+2 20 


E(AllElectronics) = HIH = 全 = 4 8% 
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而 





E(HighTech) = 20 + 10 +s +545 - 2 = 10.80 美元 
于 是 ， 使 用 (3.4) 式 ， 我 们 计算 


2 x5 
Cov( AllElectronies HighTech) = 2%20+5 x10 44x14 +3 x9 + x5 _ 4 x 10,80 





= 50.2 -43.2 =7 


由 于 协 方差 为 正 ， 因 此 我 们 可 以 说 两 个 公司 的 股票 同时 上 涨 。 m 


33.2 AllElectronics 和 HighTech 的 股票 价格 
时 间 点 AllElectronics HighTech 





tl 6 20 


B 
Nw ew 
mn 


方差 是 协 方差 的 特殊 情况 ， 其 中 两 个 属性 相同 〈 即 属性 与 自身 的 协 方差 ) 。 方 差 已 在 第 
2 章 中 讨论 过 。 


3.3.3 ”元 组 重复 


除了 检测 属性 间 的 元 余 外 ， 还 应 当 在 元 组 级 检测 重复 (例如 ， 对 于 给 定 的 唯一 数据 实 
体 ， 存 在 两 个 或 多 个 相同 的 元 组 ) 。 去 规范 化 表 (denormalized table) 的 使 用 (这 样 做 通常 
是 通过 避免 连接 来 改善 性 能 ) 是 数据 宛 余 的 另 一 个 来 源 。 不 一 臻 通常 出 现在 各 种 不 同 的 副 
本 之 间 ， 由 于 不 正确 的 数据 输入 ， 或 者 由 于 更 新 了 数据 的 某 些 出 更， 但 未 更 新 所 有 的 出 现 。 
例如 ， 如 果 订 单数 据 库 包含 订货 人 的 姓名 和 地 址 属性 ， 而 不 是 这 些 信 息 在 订货 人 数据 库 中 的 
码 ， 则 差异 就 可 能 出 现 ， 如 同一 订货 人 的 名 字 可 能 以 不 同 的 地 址 出 现在 订单 数据 库 中 。 


3.3.4 ”数据 值 冲 突 的 检测 与 处 理 


数据 集成 还 涉及 数据 值 冲突 的 检测 与 处 理 。 例 如 ， 对 于 现实 世界 的 同一 实体 ， 来 自 不 同 
数据 源 的 属性 值 可 能 不 同 。 这 可 能 是 因为 表示 、 尺 度 或 编码 不 同 。 例 如 ， 重 量 属性 可 能 在 一 
个 系统 中 以 公制 单位 存放 ， 而 在 另 一 个 系统 中 以 英制 单位 存放 。 对 于 连锁 旅馆 ， 不 同城 市 的 
房价 不 仅 可 能 涉及 不 同 的 货币 ， 而 且 可 能 涉及 不 同 的 服务 (如 免费 早餐 ) 和 税收 。 例 如 ， 
不 同学 校 交换 信息 时 ， 每 个 学 校 可 能 都 有 自己 的 课程 计划 和 评分 方案 。 一 所 大 学 可 能 采取 学 
季 制 ， 开 设 3 门 数据 库 系 统 课程 ， 用 A + -~ 了 评分 ; 而 另 一 所 大 学 可 能 采用 学 期 制 ， 开 设 两 
门 数据 库 课 程 ， 用 1 ~ 10 评分 。 很 难 在 这 两 所 大 学 之 间 制 定 精确 的 课程 成 绩 变换 规则 ， 这 使 
得 信息 交换 非常 困难 。 

属性 也 可 能 在 不 同 的 抽象 层 ， 其 中 属性 在 一 个 系统 中 记录 的 抽象 层 可 能 比 另 一 个 系统 中 
“相同 的 ”属性 低 。 例 如 ，itotal_sales 在 一 个 数据 库 中 可 能 涉及 AllElectronics 的 一 个 分 店 ， 而 
另 一 个 数据 库 中 相同 名 字 的 属性 可 能 表示 一 个 给 定 地 区 的 诸 AllElectronics 分 店 的 总 销售 量 。 
不 一 致 检测 问题 已 在 3. 2. 3 节 中 进一步 讨论 。 


3.4 数据 归 约 
假定 你 已 经 从 AllElectronics 数据 仓库 选择 了 数据 ， 用 于 分 析 。 数 据 集 可 能 非常 大 ! 在 海 





65 


66 


第 3 章 数据 预 处 理 


量 数据 上 进行 复杂 的 数据 分 析 和 挖掘 将 需要 很 长 时 间 ， 使 得 这 种 分 析 不 现实 或 不 可 行 。 
数据 归 约 (data reduction) 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 ， 它 小 得 多 ， 但 仍 接近 于 

保持 原始 数据 的 完整 性 。 也 就 是 说 ， 在 归 约 后 的 数据 集 上 挖掘 将 更 有 效 ， 仍 然 产生 相同 (或 几 

FH) 的 分 析 结 果 。 本 节 ， 我 们 将 概述 数据 归 约 的 策略 ， 然 后 进一步 考察 每 种 技术 。 


3.4.1 数据 归 约 策略 概述 

数据 归 约 策略 包括 维 归 约 、 数 量 归 约 和 数据 压缩 。 

维 归 约 (dimensionality reduction) 减少 所 考虑 的 随机 变量 或 属性 的 个 数 。 维 归 约 方法 包 
括 小 波 变换 (3.4.2 节 ) 和 主 成 分 分 析 (3.4.3 节 ) ， 它 们 把 原 数 据 变换 或 投影 到 较 小 的 空 
间 。 属 性 子 集 选择 是 一 种 维 归 约 方法 ， 其 中 不 相关 、 弱 相关 或 元 余 的 属性 或 维 被 检测 和 删除 
(3.4.4 节 )。 

数量 归 约 (numerosity reduction) 用 替代 的 、 较 小 的 数据 表示 形式 替换 原 数 据 。 这 些 技 
术 可 以 是 参数 的 或 非 参 数 的 。 对 于 参数 方法 而 言 ， 使 用 模型 估计 数据 ， 使 得 一 般 只 需要 存放 
模型 参数 ， 而 不 是 实际 数据 ( 离 群 点 可 能 也 要 存放 ) 。 回 归 和 对 数 -线性 模型 (3.4.54) 
就 是 例子 。 存 放 数据 归 约 表示 的 非 参 数 方法 包括 直方 图 (3.4.6 W), BK (3.4.7 节 )、 抽 
样 (3.4.8 节 ) 和 数据 立方 体 聚 集 (3.4.9 节 ) 。 

数据 压缩 (data compression) 使 用 变换 ， 以 便 得 到 原 数 据 的 归 约 或 “压缩 ”表示 。 如 
果 原 数据 能 够 从 压缩 后 的 数据 重 构 ， 而 不 损失 信息 ， 则 该 数据 归 约 称 为 无 损 的 。 如 果 我 们 只 
能 近似 重 构 原 数据 ， 则 该 数据 归 约 称 为 有 损 的 。 对 于 串 压缩 ， 有 一 些 无 损 压 缩 算法 。 然 而 ， 
它们 一 般 只 允许 有 限 的 数据 操作 。 维 归 约 和 数量 归 约 也 可 以 视 为 某 种 形式 的 数据 压缩 。 

有 许多 其 他 方法 来 组 织 数据 归 约 方法 。 花 费 在 数据 归 约 上 的 计算 时 间 不 应 超过 或 “ 抵 
消 ” 在 归 约 后 的 数据 上 挖 所 所 节省 的 时 间 。 


3.4.2 小 波 变换 

离散 小 波 变换 (DWT) 是 一 种 线性 信和 号 处 理 技术 ， 用 于 数据 向 量 时 ,将 它 变 换 成 不 
同 的 数值 小 波 系 数 向 量 下。 两 个 向 量具 有 相同 的 长 度 。 当 这 种 技术 用 于 数据 归 约 时 ， 每 个 
元 组 看 做 一 个 n AEST, BPX = (a, r, e, a), WE 个 数据 库 属 性 在 元 组 上 的 n 
个 测量 值 。 

“如 果 小 波 变换 后 的 数据 与 原 数据 的 长 度 相等 ， 这 种 技术 如 何 能 够 用 于 数据 压缩 ?” 关 
键 在 于 小 波 变换 后 的 数据 可 以 截 短 。 仅 存放 一 小 部 分 最 强 的 小 波 系数 ， 就 能 保留 近似 的 压缩 
数据 。 例 如 ， 保 留 大 于 用 户 设 定 的 某 个 阔 值 的 所 有 小 波 系数 ， 其 他 系数 置 为 0。 这 样 ， 结 果 
数据 表示 非常 稀 朴 ， 使 得 如 果 在 小 波 空间 进行 计算 的 话 ， 利 用 数据 稀 朴 特点 的 操作 计算 得 非 
常 快 。 该 技术 也 能 用 于 消除 噪声 ， 而 不 会 光滑 掉 数 据 的 主要 特征 ， 使 得 它们 也 能 有 效 地 用 于 
数据 清理 。 给 定 一 组 系数 ， 使 用 所 用 的 DWT 的 送 ， 可 以 构造 原 数据 的 近似 。 

DWT 与 离散 传 里 叶 变 换 (DIT) 有 和 密切 关系 。DFT 是 一 种 涉及 正弦 和 余弦 的 信号 处 理 
技术 。 然 而 ， 一 般 地 说 ，DWT 是 一 种 更 好 的 有 损 压缩 。 也 就 是 说 ， 对 于 给 定 的 数据 向 量 ， 
如 果 DWT 和 DFT 保留 相同 数目 的 系数 ， 则 DWT 将 提供 原 数据 更 准确 的 近似 。 因 此 ， 对 于 
相同 的 近似 ，DWT 需要 的 空间 比 DFT 小 。 与 DFT 不 同 ， 小 波 空间 局 部 性 相当 好 ， 有 助 于 保 
留 局 部 细节 。 





O ”在 我 们 的 记号 中 ,代表 向 量 的 变量 用 粗 斜体 ， 描 述 向 量 的 度量 用 斜体 。 
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只 有 一 种 DFT， 但 有 若干 族 DWT。 图 3.4 显示 了 一 些小 波 族 。 流 行 的 小 波 变换 包括 
Haar 2 Daubechies-4 和 Daubechies-6。 离 散 小 波 变换 的 一 般 过 程 使 用 一 种 层次 金字 塔 算法 
( pyramid algorithm) ， 它 在 每 次 迭代 时 将 数据 减 半 ， 导 致 计算 速度 很 快 。 该 方法 如 下 : 

(1) 输入 数据 向 量 的 长 度 工 必须 是 2 的 整数 备 。 必 要 时 ,通过 在 数据 向 量 后 添加 0， 这 
一 条 件 可 以 满足 (Len). 

(2) 每 个 变换 涉及 应 用 两 个 函数 。 第 一 个 使 用 某 种 数据 光滑 ， 如 求 和 或 加 权 平 均 。 第 
二 个 进行 加 权 差 分 ， 提 取 数 据 的 细节 特征 。 

(3) 两 个 函数 作用 于 居中 的 数据 点 对 ， 即 作用 于 所 有 的 测量 对 (xu, u) AFAM 
个 长 度 为 L2 的 数据 集 。 一 般 而 言 ， 它 们 分 别 代表 输入 数据 的 光滑 后 的 版 本 或 低频 版 本 和 它 
的 高 频 内 容 。 

(4) 两 个 函数 递归 地 作用 于 前 面 循环 得 到 的 数据 集 ， 直 到 得 到 的 结果 数据 集 的 长 度 为 2。 

(5) 由 以 上 和 迭代 得 到 的 数据 集中 选择 的 值 被 指定 为 数据 变换 的 小 波 系数 。 
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图 3.4 ”小波 族 的 例子 。 小 波 名 后 的 数 是 小 波 的 消失 瞬间 。 这 是 系数 
必须 满足 的 数学 联系 集 ， 并 且 与 小 波 系数 的 个 数 有 关 


等 价 地 ， 可 以 将 矩阵 乘法 用 于 输入 数据， 以 得 到 小 波 系数 。 所 用 的 矩阵 依赖 于 给 定 的 
DWT。 拢 阵 必 须 是 标准 正 交 的 ， 即 它们 的 列 是 单位 向 量 并 相互 正 交 ， 使 得 矩阵 的 道 是 它 的 
转 置 。 尽 管 受 篇 幅 限制 ， 这 里 我 们 不 再 讨论 ， 但 这 种 性 质 允 许 由 光滑 和 光滑 - 差 数据 集 重 构 
数据 。 通 过 将 矩阵 分 解 成 几 个 稀 玖 矩阵 的 乘积 ， 对 于 长 度 为 n 的 输入 向 量 ,“ 快 速 DWT” 算 
法 的 复杂 度 为 0(n)。 

小 波 变换 可 以 用 于 多 维 数据 ， 如 数据 立方 体 。 可 以 按 以 下 方法 实现 : 首先 将 变换 用 于 第 
TE, 然后 第 二 个 ， 如 此 下 去 。 计 算 复杂 性 关于 立方 体 中 单元 的 个 数 是 线性 的 。 对 于 稀疏 
或 倾斜 数据 和 具有 有 序 属性 的 数据 ， 小 波 变换 给 出 了 很 好 的 结果 。 据 报道 ， 小 波 变 换 的 有 损 
压缩 优 于 JPEG 压缩 〈 当 前 的 商业 标准 ) 。 小 波 变换 有 许多 实际 应 用 ， 包 括 指纹 图 像 压 缩 、 
计算 机 视觉 、 时 间 序 列 数据 分 析 和 数据 清理 。 


3.4.3 主 成 分 分 析 


本 节 ， 我 们 直观 地 介绍 主 成 分 分 析 ， 把 它 作 为 一 种 维 归 约 方法 。 详 细 的 理论 解释 已 超出 
本 书 范围 。 关 于 参考 文献 ， 请 参阅 本 章 后 面 的 文献 注释 (3.8 节 ) 。 

假设 待 归 约 的 数据 由 用 个 属性 或 维 描述 的 元 组 或 数据 向 量 组 成 。 主 成 分 分 析 ( princi- 
pal components analysis) 或 PCA (又 称 Karhunen-Loeve 或 K-L 方法) 搜索 个 最 能 代表 数据 
的 n 维 正 交 向 量 ， 其 中 <n。 这 样 ， 原 数据 投影 到 一 个 小 得 多 的 空间 上 ， 导 致 维 归 约 。 与 
属性 子 集 选择 (3.4.4 节 ) 通过 保留 原 属性 集 的 一 个 子 集 来 减少 属性 集 的 大 小 不 同 ，PCA 通 
过 创建 一 个 替换 的 、 较 小 的 变量 集 “组合” 属性 的 基本 要 素 。 原 数据 可 以 投影 到 该 较 小 的 


67 


68 


[103 | 


第 3 章 数据 预 处 理 


集合 中 。PCA 常常 能 够 揭示 先前 未 曾 察觉 的 联系 ， 并 因此 允许 解释 不 寻常 的 结果 。 
基本 过 程 如 下 : 
(1) 对 输入 数据 规范 化 ， 使 得 每 个 属性 都 落 人 相同 的 区 间 。 此 步 有 助 于 确保 具有 较 大 
定义 域 的 属性 不 会 支配 具有 较 小 定义 域 的 属性 。 
(2) PCA 计算 天 个 标准 正 交 向 量 ， 作 为 规范 化 输入 数据 的 基 。 这 些 是 单位 向 量 ， 每 一 
个 都 垂直 于 其 他 向 量 。 这 些 向 量 称 为 主 成 分 。 输 入 数据 是 主 成 分 的 线性 组 合 。 
(3) 对 主 成 分 按 “ 重 要 性 ”或 强度 降序 排列 。 主 成 X, 
分 本 质 上 充当 数据 的 新 坐标 系 ， 提 供 关 于 方差 的 重要 信 Y, y, 
息 。 也 就 是 说 ， 对 坐标 轴 进 行 排序 ， 使 得 第 一 个 坐标 轴 显 
示 数 据 的 最 大 方差 ， 第 二 个 显示 数据 的 次 大 方差 ， 如 此 下 
去 。 例 如 ， 图 3. 5 显示 原来 映射 到 轴 X, A X 的 给 定数 据 
集 的 前 两 个 主 成 分 Y 和 了 六。 这 一 信息 帮助 识别 数据 中 的 


组 群 或 模式 。 
(4) 既然 主 成 分 根据 “重要 性 ”降序 排列 ， 因 此 可 以 图 3.5 主 成 分 分 析 。 Y, MY, 24 
通过 去 掉 较 弱 的 成 分 〈 即 方差 较 小 的 那些 ) 来 归 约 数据 。 定数 据 的 前 两 个 主 成 分 


使 用 最 强 的 主 成 分 ， 应 当 能 够 重 构 原 数据 的 很 好 的 近似 。 

PCA 可 以 用 于 有 序 和 无 序 的 属性 ， 并 且 可 以 处 理 稀 玖 和 倾斜 数据 。 多 于 二 维 的 多 维 数 
据 可 以 通过 将 问题 归 约 为 二 维 问 题 来 处 理 。 主 成 分 可 以 用 做 多 元 回归 和 聚 类 分 析 的 输入 。 与 
小 波 变换 相 比 ，PCA 能 够 更 好 地 处 理 稀 玖 数据 ， 而 小 波 变 换 更 适合 高 维 数据 。 


3.4.4 ”属性 子 集 选择 


用 于 分 析 的 数据 集 可 能 包含 数 以 百 计 的 属性 ， 其 中 大 部 分 属性 可 能 与 挖掘 任 务 不 相关 ， 
或 者 是 元 余 的 。 例 如 ， 如 果 分 析 任 务 是 按 顾客 听 到 广告 后 是 否 愿 意 在 AllElectronics 购买 新 的 
流行 CD 将 顾客 分 类 ， 与 属性 cge( 年 龄 ) 和 music_taste( 音乐 鉴赏 力 ) 不 同 ， 诸 如 顾客 的 电 
话 号 码 等 属性 多 半 是 不 相关 的 。 尽 管 领域 专家 可 以 挑选 出 有 用 的 属性 ， 但 这 可 能 是 一 项 困难 
而 费时 的 任务 ， 特 别 是 当 数 据 的 行为 不 是 十 分 清楚 的 时 候 更 是 如 此 ( 因此， 需要 分 析 )。 遗 
漏 相关 属性 或 留 下 不 相关 属性 都 可 能 是 有 害 的 ， 会 导致 所 用 的 挖掘 算法 无 所 适 从 。 这 可 能 导 
致 发 现 质量 很 差 的 模式 。 此 外 ， 不 相关 或 元 余 的 属性 增加 了 数据 量 ， 可 能 会 减 慢 挖掘 进程 。 

属性 子 集 选择 ?通过 删除 不 相关 或 元 余 的 属性 (或 维 ) 减少 数据 量 。 属 性 子 集 选 择 的 目标 是 
找 出 最 小 属性 集 ， 使 得 数据 类 的 概率 分 布 尽 可 能 地 接近 使 用 所 有 属性 得 到 的 原 分 布 。 在 缩小 的 属 
性 集 上 挖掘 还 有 其 他 的 优点 : 它 减少 了 出 现在 发 现 模式 上 的 属性 数目 ， 使 得 模式 更 易于 理解 。 

“如 何 找 出 原 属性 的 一 个 “好 的 ” 子 集 ?” 对 于 个 属性 ， 有 2" 个 可 能 的 子 集 。 穷 举 搜 
索 找 出 属性 的 最 佳 子 集 可 能 是 不 现实 的 ， 特 别 是 当 ” 和 数据 类 的 数目 增加 时 。 因 此 ， 对 于 属 
性 子 集 选择 ， 通 常 使 用 压缩 搜索 空间 的 启发 式 算法 。 通 常 ， 这 些 方法 是 典型 的 贪心 算法 ， 在 
搜索 属性 空间 时 ， 总 是 做 看 上 去 是 最 佳 的 选择 。 它 们 的 策略 是 做 局 部 最 优选 择 ， 期 望 由 此 导 
致 全 局 最 优 解 。 在 实践 中 ， 这 种 贪心 方法 是 有 效 的 ， 并 可 以 通 近 最 优 解 。 

“最 好 的 ”( 和 “最 差 的 ") 属性 通常 使 用 统计 显著 性 检验 来 确定 。 这 种 检验 假定 属性 是 相 
互 独立 的 。 也 可 以 使 用 一 些 其 他 属性 评估 度量 ， 如 建立 分 类 决策 树 使 用 的 信息 增益 度量 。 

属性 子 集 选择 的 基本 局 发 式 方法 包括 以 下 技术 ， 其 中 一 些 在 图 3. 6 中 给 出 。 








日 在 机 器 学 习 中 ， 属 性 子 集 选择 称 为 特征 子 集 选择 。 
O ”信息 增益 度量 在 第 8 章 详细 介绍 。 
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向 前 选择 EI 决策 树 归纳 
初始 属性 集 : 初始 属性 集 : 初始 属性 集 : 
{41, Aa, Aq, Ags Age A6} | {41, A2, A3, Aa, As, Ae} | {41. An As, Aa As Ae) 
初始 化 归 约 集 : => {A}. A3, Ay As, Ag} 
{} > {41, Ag, As, Ao} 
= {41} = 归 约 后 的 属性 集 : 
= {41,44} {A1, Aq, Ao} 
> 归 约 后 的 属性 集 : 
{AL Ag, Ao} 











= 归 约 后 的 属性 集 : 


{41 Ag, Ag} 





图 3.6 属性 子 集 选择 的 贪心 (启发 式 ) 方法 


(1) 逐步 向 前 选择 ; 该 过 程 由 空 属性 集 作为 归 约 集 开 始 ， 确 定 诛 属性 集中 最 好 的 属性 ， 并 将 
它 添加 到 归 约 集中 。 在 其 后 的 每 一 次 迭代 ， 将 剩 下 的 原 属 性 集中 的 最 好 的 属性 添加 到 该 集合 中 。 

(2) 逐步 向 后 删除 : 该 过 程 由 整个 属性 集 开始 。 在 每 一 步 中 ,删除 尚 在 属性 集中 最 差 
的 属性 。 

(3) 逐步 向 前 选择 和 逐步 向 后 删除 的 组 合 : 可 以 将 逐步 向 前 选择 和 逐步 向 后 删除 方法 
结合 在 一 起 ， 每 一 步 选择 一 个 最 好 的 属性 ， 并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 

(4) 决策 树 归 纳 : 决策 树 算法 (例如 ，ID3、C4.5 和 CART) 最 初 是 用 于 分 类 的 。 决 策 
树 归纳 构造 一 个 类 似 于 流程 图 的 结构 ， 其 中 每 个 内 部 ( 非 树叶 ) 结 点 表示 一 个 属性 上 的 测 
试 ， 每 个 分 枝 对 应 于 测试 的 一 个 结果 ; 每 个 外 部 (树叶 ) 结 点 表示 一 个 类 预测 。 在 每 个 结 
点 上 ， 算 法 选择 “最 好 ”的 属性 ， 将 数据 划分 成 类 。 

当 决策 树 归纳 用 于 属性 子 集 选 择 时 ， 由 给 定 的 数据 构造 决策 树 。 不 出 现在 树 中 的 所 有 属 
性 假定 是 不 相关 的 。 出 现在 树 中 的 属性 形成 归 约 后 的 属性 子 集 。 

这 些 方法 的 结束 条 件 可 以 不 同 。 该 过 程 可 以 使 用 一 个 度量 冰 值 来 决定 何 时 停止 属性 选择 
过 程 。 

在 某 些 情况 下 ， 我 们 可 能 基于 其 他 属性 创建 一 些 新 属性 。 这 种 属性 构造 "可 以 帮助 提高 
准确 性 和 对 高 维 数据 结构 的 理解 。 例 如 ， 我 们 可 能 希望 根据 属性 height PRE) 和 width ( 宽 
BE) 增加 属性 area( 面积 ) 。 通 过 组 合 属性 ， 属 性 构造 可 以 发 现 关 于 数据 属性 间 联 系 的 缺失 
信息 ， 这 对 知识 发 现 是 有 用 的 。 


3.4.5 回归 和 对 数 线性 模型 ， 参数 化 数据 归 约 
回归 和 对 数 线 性 模型 可 以 用 来 近似 给 定 的 数据 。 在 (简单 ) 线性 回归 中 ， 对 数据 建 模 ， 
使 之 拟 合 到 一 条 直线 。 例 如 ， 可 以 用 以 下 公式 ， 将 随机 变量 y ( 称 做 因 变 量 ) 表示 为 另 一 随 
机 变量 x 〈 称 为 自 变 量 ) 的 线性 函数 ， 
y= we +b (3.7) 
其 中 ,假定 y 的 方差 是 常量 。 在 数据 挖掘 中 ，* M y 是 数值 数据 库 属性 。 系 数 w 和 2 ( 称 做 





O ”在 机 器 学 习 文 献 中 ， 属 性 构造 又 称 特征 构造 。 
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回归 系数 ) 分 别 为 直线 的 斜率 和 y 轴 截 距 。 系 数 可 以 用 最 小 二 乘法 求解 ， 其 最 小 化 分 离 数据 
的 实际 直线 与 该 直线 的 估计 之 间 的 误差 。 多 元 回归 是 (简单 ) 线性 回归 的 扩展 ， 人 允许 用 两 
个 或 多 个 自 变量 的 线性 函数 对 因 变 量 y 建 模 。 

对 数 线性 模型 (log-linear model) 近似 离散 的 多 维 概率 分 布 。 给 定 4 维 例如， 用 个 
属性 描述 ) 元 组 的 集合 ， 我 们 可 以 把 每 个 元 组 看 做 维 空间 的 点 。 对 于 离散 属性 集 ， 可 以 
使 用 对 数 线性 模型 ， 基 于 维 组 合 的 一 个 较 小 子 集 ， 估 计 和 多维 空间 中 每 个 点 的 概率 。 这 使 得 高 
维 数据 空间 可 以 由 较 低 维 空间 构造 。 因 此 ， 对 数 线性 模型 也 可 以 用 于 维 归 约 (由 于 较 低 维 
空间 的 点 通常 比 原来 的 数据 点 占据 的 空间 要 少 ) 和 数据 光滑 (因为 与 较 高 维 空间 的 估计 相 
比 ， 较 低 维 空间 的 聚集 估计 受 抽样 变化 的 影响 较 小 ) 。 

回归 和 对 数 线性 模型 都 可 以 用 于 稀 朴 数据 ， 尽 管 它们 的 应 用 可 能 是 有 限 的 。 虽 然 两 种 方 
法 都 可 以 处 理 倾斜 数据 ， 但 是 回归 可 望 更 好 。 当 用 于 高 维 数据 时 ， 回 归 可 能 是 计算 密集 的 ， 
而 对 数 线性 模型 表现 出 很 好 的 可 伸缩 性 ， 可 以 扩展 到 10 维 左右 。 

有 一 些 求解 回归 问题 的 软件 包 ， 例 子 包 插 SAS (www. sas. com), SPSS (www. spss. com) 
和 S-Plus (www. insightful. com ) 。 另 一 个 有 用 资源 是 由 Press, Teukolsky, Vetterling 和 Flan- 
nery 所 写 的 《C 中 的 数值 程序 》 (Numerical Recipes in C) 一 书 及 其 配套 源 代码 。 


3.4.6 直方 图 


直方 图 使 用 分 箱 来 近似 数据 分 布 ， 是 一 种 流行 的 数据 归 约 形式 。 直 方 图 曾 在 2.2. 3 节 
介绍 过 。 属 性 4 的 直方 图 (histogram) 将 4 的 数据 分 布 划分 为 不 相交 的 子 集 或 桶 。 如 果 每 
个 桶 只 代表 单个 属性 值 /频率 对 ， 则 该 桶 称 为 单 值 桶 。 通 常 ， 桶 表示 给 定 属性 的 一 个 连续 
区 间 。 

例 3.3 直方 图 。 下 面 的 数据 是 AllElectronics 通常 销售 的 商品 的 单价 列表 ( 按 美 元 四 含 
五 人 取 整 ) 。 已 对 数据 进行 了 排序 : 1, 1, 5, 5, 5, 5, 5, 8, 8, 10, 10, 10, 10, 12, 
14, 14, 14, 15, 15, 15, 15, 15, 15, 18, 18, 18, 18, 18, 18, 18, 18, 20, 20, 20, 
20, 20, 20, 20, 21, 21, 21, 21, 25, 25, 25, 25, 25, 28, 28, 30, 30, 30. 

图 3.7 使 用 单 值 桶 显示 了 这 些 数据 的 直方 图 。 为 进一步 压缩 数据 ， 通 常 让 一 个 桶 代表 给 




















定 属性 的 一 个 连续 值 域 。 在 图 3. 8 中 每 个 桶 代表 price 的 一 个 不 同 的 10 美元 区 间 。 a 
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图 3.7 使 用 单 值 桶 的 price 直方 图 一 一 每 个 图 3.8 price 的 等 宽 直 方 图 ， 值 被 聚集 使 得 


桶 代表 一 个 price 值 /频率 对 每 个 桶 都 有 一 致 的 宽度 即 10 美元 
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“如 何 确定 桶 和 属性 值 的 划分 ?” 有 一 些 划分 规则 ， 包 括 下 面 这 些 : 
u 等 宽 : 在 等 宽 直方 图 中 ,每 个 桶 的 宽度 区 间 是 一 致 的 〈 例 如 ， 图 3. 8 中 每 个 桶 的 宽 
度 为 10 美元 ) 。 
加 等 频 (RFR): 在 等 频 直方 图 中 ， 桶 这 样 创建 ， 使 得 每 个 桶 的 频率 粗略 地 为 常数 
( 即 ， 每 个 桶 大 致 包含 相同 个 数 的 邻近 数据 样本 ) 。 
对 于 近似 稀疏 和 稠密 数据 ， 以 及 高 倾斜 和 均匀 的 数据 ， 直 方 图 都 是 非常 有 效 的 。 上 面 介 
绍 的 单 属性 直方 图 可 以 推广 到 多 个 属性 。 多 维 直方 图 可 以 表现 属性 间 的 依赖 。 业 已 发 现 ， 这 
种 直方 图 能 够 有 效 地 近似 多 达 5 个 属性 的 数据 。 对 于 更 高 维 的 多 维 直 方 图 的 有 效 性 尚 需 进 一 
步 研究 。 
对 于 存放 具有 高 频率 的 离 群 点 ， 单 值 桶 是 有 用 的 。 


3.4.7 RŽ 


聚 类 技术 把 数据 元 组 看 做 对 象 。 它 将 对 象 划 分 为 群 或 答 ， 使 得 在 一 个 焦 中 的 对 象 相 互 
“相似 ”， 而 与 其 他 得 中 的 对 象 “ 相 异 ”。 通 常 ， 相 似 性 基于 距离 函数 ， 用 对 象 在 空间 中 的 
“接近 ”程度 定义 。 艇 的 “质量 ”可 以 用 直径 表示 ， 直 径 是 簇 中 两 个 对 象 的 最 大 距离 。 形 心 
距离 是 艇 质量 的 另 一 种 度量 ， 它 定义 为 艇 中 每 个 对 象 到 簇 形 心 (ER “PINA, REF 
间 中 的 平均 点 ) 的 平均 距离 。 图 3.3 显示 了 关于 顾客 在 城市 中 位 置 的 顾客 数据 2-D 图 ， 其 中 
三 个 数据 簇 是 明显 的 。 

在 数据 归 约 中 ,用 数据 的 簇 代表 替换 实际 数据 。 该 技术 的 有 效 性 依赖 于 数据 的 性 质 。 相 
对 于 被 污染 的 数据 ， 对 于 能 够 组 织 成 不 同 的 得 的 数据 ， 该 技术 有 效 得 多 。 

AVES EUR AURA EE RETER 10 章 和 第 11 章 进 一 步 讨 论 。 


3.4.8 抽样 


抽样 可 以 作为 一 种 数据 归 约 技术 使 用 ， 因 为 它 允 许 用 数据 的 小 得 多 的 随机 样本 (ERE) 
表示 大 型 数据 集 。 假 定 大 型 数据 集 D 包含 NN 个 元 组 。 我 们 看 看 可 以 用 于 数据 归 约 的 、 最 党 
用 的 对 D 的 抽样 方法 ， 如 图 3.9 所 示 。 
。 s 个 样本 的 无 放 回 简单 随机 抽样 (SRSWOR) : 从 了 的 NN 个 元 组 中 抽取 :个 样本 
(s<N), SO D 中 任意 元 组 被 抽取 的 概率 均 为 1 LN， 即 所 有 元 组 的 抽取 是 等 可 
能 的 。 
。 s 个 样本 的 有 放 回 简单 随机 抽样 (SRSWR) : 该 方法 类 似 于 SRSWOR， 不 同 之 处 在 
于 当 一 个 元 组 从 DD 中 抽取 后 ， 记 录 它 ， 然 后 放 回 原 处 。 也 就 是 说 ， 一 个 元 组 被 抽取 
后 , 它 叉 被 放 回 D， 以 便 它 可 以 被 再 次 抽取 。 
。 RH: WMR D 中 的 元 组 被 分 组 ， 放 和 人 M 个 互 不 相交 的 “位 ”， 则 可 以 得 到 * HE 
的 简单 随机 抽样 〈SRS) ， 其 中 s < M。 例 如 ， 数 据 库 中 元 组 通常 一 次 取 一 页 ， 这 样 
每 页 就 可 以 视 为 一 个 徐 。 例 如 ， 可 以 将 SRSWOR 用 于 页 ， 得 到 元 组 的 艇 样本， 由 此 
得 到 数据 的 归 约 表示 。 也 可 以 利用 其 他 携带 更 丰富 语义 信息 的 聚 类 标准 。 例 如 ， 在 
空间 数据 库 中 ,我们 可 以 基于 不 同 区 域 位 置 上 的 邻近 程度 定义 簇 。 
。 分 层 抽样 : 如 果 D 被 划分 成 互 不 相交 的 部 分 ， 称 做 “ 层 ”， 则 通过 对 每 一 层 的 SRS 
就 可 以 得 到 D 的 分 层 抽样 。 特 别 是 当 数 据 倾斜 时 ， 这 可 以 帮助 确保 样本 的 代表 性 。 
例如 ， 可 以 得 到 关于 顾客 数据 的 一 个 分 层 抽样 ， 其 中 分 层 对 顾客 的 每 个 年 龄 组 创建 。 
这 样 ， 具 有 的 顾客 人 数 最 少 的 年 龄 组 肯定 能 够 被 代表 。 
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Hh 
(s=2) 








分 层 抽样 

(根据 age ) 
T38 T38 
T256| youh | T391 
T307| youh | T117 
T391| ymth _ | T138 
T96 | middle aged | T290 
T117 T326 
T138 T69 
T263 i ag 
T290| middle aged | 





图 3.9 抽样 可 以 用 于 数据 归 约 


采用 抽样 进行 数据 归 约 的 优点 是 ， 得 到 样本 的 花费 正比 例 于 样本 集 的 大 小 s， 而 不 是 数 
据 集 的 大 小 N。 因 此 ， 抽 样 的 复杂 度 可 能 亚 线性 (sublinear) 于 数据 的 大 小 。 其 他 数据 归 约 
技术 至 少 需 要 完全 扫描 D。 对 于 固定 的 样本 大 小 ， 抽 样 的 复杂 度 仅 随 数据 的 维 数 n 线性 地 增 
加 ; 而 其 他 技术 ， 如 使 用 直方 图 ， 复 杂 度 随 n 时 指 数 增长 。 

用 于 数据 归 约 时 ， 抽 样 最 常用 来 估计 夷 集 查 询 的 回答 。 在 指定 的 误差 范围 内 ， 可 以 确定 
(使 用 中 心 极限 定理 ) 估计 一 个 给 定 的 函数 所 需 的 样本 大 小 。 样 本 的 大 小 相对 于 N 可 能 非 
常 小 。 对 于 归 约 数据 的 逐步 求 精 ， 抽 样 是 一 种 自然 选择 。 通 过 简单 地 增加 样本 大 小 ， 这 样 的 
集合 可 以 进一步 求 精 。 


3.4.9 数据 立方 体 聚 集 


想象 你 已 经 为 你 的 分 析 收 集 了 数据 。 这 些 数据 由 AllElectronics 2008 ~ 2010 年 每 季度 的 
销售 数据 组 成 。 然 而 ， 你 感 兴趣 的 是 年 销售 (每 年 的 总 和 ) ， 而 不 是 每 季度 的 总 和 。 于 是 可 
以 对 这 种 数据 聚集 ， 使 得 结果 数据 汇总 每 年 的 总 销售 ， 而 不 是 每 季度 的 总 销售 。 该 聚集 如 
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图 3. 10 所 示 。 结 果 数 据 量 小 得 多 ， 但 并 不 丢失 分 析 任务 所 需 的 信息 。 
2010 年 | 
2009 年 


224 000 美 元 
408 000 美 元 
350 000 美 元 
586 000 美 元 





































2009 | 2356 000 美 元 
2010 | 3 594 000 美 元 













图 3. 10 AllElectronics 的 给 定 分 店 2008 年 到 2010 年 的 销售 数据 。 上 去 部 ， 销 售 数据 按 
季度 显示 。 右 部 ， 数 据 聚 集 以 提供 年 销售 额 


数据 立方 体 在 第 4 章 介绍 数据 仓库 和 第 5 章 介绍 数据 立方 体 技术 时 详细 讨论 。 这 里 ,我 
们 简略 介绍 一 些 概念 。 数 据 立 方 体 存储 多 维 聚 集 信 息 。 例 如 ， 图 3. 11 显示 了 一 个 数据 立方 
体 ， 用 于 AllElectronics 的 所 有 分 店 每 类 商品 年 销售 的 多 维 数据 分 析 。 每 个 单元 存放 一 个 聚集 
值 ， 对 应 于 多 维 空间 的 一 个 数据 点 。 ( 为 清晰 起 见 ， 只 显示 了 某 些 单元 的 值 。) 每 个 属性 都 
可 能 存在 概念 分 县 ， 人 允许 在 多 个 抽象 层 进行 数据 分 析 。 例 如 ，branch 的 分 层 使 得 分 店 可 以 按 
它们 的 地 址 聚集 成 地 区 。 数 据 立 方 体 提供 对 预计 
算 的 汇总 数据 进行 快速 访问 ， 因 此 适合 联机 数据 
分 析 和 数据 挖掘。 

在 最 低 抽 象 层 创建 的 立方 体 称 为 基本 方 体 
(base cuboid) 。 基 本 方 体 应 当 对 应 于 感 兴 趣 的 个 
体 实体 ， 如 sales 或 customer, MAS, MIKA 
当 是 对 于 分 析 可 用 的 或 有 用 的 。 最 高 层 抽 象 的 立 
方 体 称 为 项 点 方 体 (apex cuboid) 。 对 于 图 3. 11 
中 的 销售 数据 ， 顶 点 方 体 将 给 出 一 个 汇总 值 一 一 


商品 类 型 


2008 2009 2010 


所 有 商品 类 型 、 所 有 分 店 三 年 的 总 销售 额 。 对 不 年 
同 层 创建 的 数据 立方 体 称 为 方 体 (cuboid)， 因 此 
“数据 立方 体 ” 可 以 看 做 方 体 的 格 (lattice of cu- 


图 3.11 AllElectronics 的 销售 数据 立方 体 


boid) 。 每 个 较 高 层 抽象 将 进一步 减 小 结果 数据 的 规模 。 当 回答 OLAP 查询 或 数据 挖 所 查询 
时 ， 应 当 使 用 与 给 定 任务 相关 的 最 小 可 用 方 体 。 该 问题 将 在 第 4 章 讨论 。 


3. 5 ”数据 变换 与 数据 离散 化 

本 节 介 绍 数据 变换 方法 。 在 数据 预 处 理 阶段 ， 数 据 被 变换 或 统一 ， 使 得 挖掘 过 程 可 能 更 
有 效 ， 挖 掘 的 模式 可 能 更 容易 理解 。 本 节 还 讨论 数据 离散 化 。 数 据 离散 化 是 一 种 数据 变换 
形式 。 


3.5.1 数据 变换 策略 概述 


在 数据 变换 中 ， 数 据 被 变换 或 统一 成 适合 于 挖掘 的 形式 。 数 据 变换 策略 包括 如 下 几 种 : 
(1) 光滑 (smoothing): 去 掉 数据 中 的 噪声 。 这 类 技术 包括 分 箱 、 回 归 和 素 类 。 
(2) 属性 构造 (或 特征 构造 ): 可 以 由 给 定 的 属性 构造 新 的 属性 并 添加 到 属性 集中 ， 以 
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帮助 挖 据 过程 。 

(3) BH: 对 数据 进行 汇总 或 聚集 。 例 如 ， 可 以 聚集 日 销售 数据 ， 计 算 月 和 年 销售 量 。 
通常 ， 这 一 步 用 来 为 多 个 抽象 层 的 数据 分 析 构 造 数据 立方 体 。 

(4) 规范 化 ， 把 属性 数据 按 比例 缩放 ， 使 之 落 入 一 个 特定 的 小 区 间 ， 如 -1.0~1.0 或 
0.0~1.0, 

(5) 离散 化 : 数值 属性 〈 例 如 ， 年 龄 ) 的 原始 值 用 区 间 标 签 (例如 ,0 ~ 10，1L1 ~ 20 
F) 或 概念 标签 (PIM, youth, adult, senior) 替换 。 这 些 标签 可 以 递归 地 组 织 成 更 高 层 概 
念 ， 导 致 数值 属性 的 概念 分 层 。 图 3. 12 显示 了 属性 price 的 一 个 概念 分 层 。 对 于 同一 个 属性 
可 以 定义 多 个 概念 分 层 ， 以 适合 不 同 用 户 的 需要 。 

(6) 由 标 称 数据 产生 概念 分 层 : 属性 ， 如 street， 可 以 泛 化 到 较 高 的 概念 屋 ， 如 city 或 
country。 许 多 标 称 属 性 的 概念 分 层 都 蕴含 在 数据 库 的 模式 中 ， 可 以 在 模式 定义 级 自动 定义 。 


($0...$1000] 
($400...$600] 


















($200...$400] ($600...$800] 






图 3.12 ”属性 price 的 一 个 概念 分 层 ， 其 中 区 间 ( $X… SY] 表示 从 $X( 不 包括 ) 到 $Y( 包 括 ) 的 区 间 


注意 ， 数 据 预 处 理 的 主要 任务 之 间 存 在 许多 重 和 于。 上述 策略 的 前 三 个 在 本 章 的 前 面 讨 论 
过 。 光 滑 是 一 种 数据 清理 形式 ， 已 在 3. 2. 2 节 讨 论 。3. 2. 3 节 介 绍 数据 清理 过 程 时 还 讨论 了 
ETL 工具， 其 中 用 户 指定 的 变换 用 来 纠正 数据 的 不 一 致 。 属 性 构造 和 聚集 已 在 3. 4 节 介 绍 数 
据 归 约 时 讨论 过 。 因 此 ， 本 节 我 们 集中 讨论 后 三 种 策略 。 

离散 化 技术 可 以 根据 如 何 进行 离散 化 加 以 分 类 ， 如 根据 是 否 使 用 类 信息 ， 或 根据 离散 化 
的 进行 方向 〈 即 自 项 向 下 或 自 底 向 上 ) 来 分 类 。 如 果 离 散 过 程 使 用 类 信息 ， 则 称 它 为 监督 
的 离散 化 (supervised discretization); 否则 是 非 监 督 的 (unsupervised ) 。 如 果 离 散 化 过 程 首 
先 找 出 一 个 或 几 个 点 〈 称 做 分 裂 点 或 割 点) 来 划分 整个 属性 区 间 ， 然 后 在 结果 区 间 上 递归 
地 重复 这 一 过 程 ， 则 称 它 为 自 顶 向 下 离散 化 或 分 裂 。 自 底 向 上 离散 化 或 合并 正好 相反 ， 它 们 
首先 将 所 有 的 连续 信 看 做 可 能 的 分 列 点 ， 通过 合并 邻 域 的 值 形成 区 间 ， 然 后 在 结果 区 间 递 归 
地 应 用 这 一 过 程 。 

数据 离散 化 和 概念 分 层 产生 也 是 数据 归 约 形式 。 原 始 数 据 被 少数 区 间或 标 和 取代 。 这 位 
化 了 原 数据 ， 使 得 挖掘 更 有 效 ， 挖 掘 的 结果 模式 一 般 更 容易 理解 。 对 于 多 个 抽象 层 上 的 控 
据 ， 概 念 分 层 也 是 有 用 的 。 

本 节 的 其 余部 分 组 织 如 下 。 首 先 ，3. 5. 2 节 介绍 规范 化 技术 。 然 后 ,我们 介绍 几 种 数据 
离散 化 技术 ， 每 种 都 可 以 用 来 产生 数值 属性 的 概念 分 层 。 这 些 技术 包括 分 箱 (3.5.3 节 )、 
直方 图 分 析 (3.5.4 节 )， 以 及 聚 类 分 析 、 决 策 树 分 析 和 相关 分 析 (3.5.5 节 )。 最 后 ， 
3. 5.6 节 介 绍 标 称 数 据 的 概念 分 层 的 自动 产生 。 


3.5.2 通过 规范 化 变换 数据 
所 用 的 度量 单位 可 能 影响 数据 分 析 。 例 如 ， 把 height 的 度量 单位 从 米 变 成 英寸 ， 把 
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weight 的 度量 单位 从 公斤 改 成 磅 ， 可 能 导致 完全 不 同 的 结果 。 一 般 而 言 ， 用 较 小 的 单位 表示 
属性 将 导致 该 属性 具有 较 大 值 域 ， 因 此 趋向 于 使 这 样 的 属性 具有 较 大 的 影响 或 较 高 的 “ 权 
重 " 。 为 了 帮助 避免 对 度量 单位 选择 的 依赖 性 ， 数 据 应 该 规范 化 或 标准 化 。 这 涉及 变换 数 
据 ， 使 之 落 入 较 小 的 共同 区 间 , 如 [ -1, 1] 或 [0.0, 1.0), (在 数据 预 处 理 中 ,术语 
“规范 化 ”和 “标准 化 ”可 以 互 换 使 用 ， 尽 管 后 一 术语 在 统计 学 还 具有 其 他 含义 。) 

规范 化 数据 试图 赋予 所 有 属性 相等 的 权重 。 对 于 涉及 神经 网 络 的 分 类 算法 或 基于 距离 度 
量 的 分 类 (如 最 近邻 分 类 ) 和 聚 类 ， 规 范 化 特别 有 用 。 如 果 使 用 神经 网 络 后 向 传播 算法 进 
行 分 类 挖掘 (第 9 章 ) ， 对 训练 元 组 中 每 个 属性 的 输入 值 规范 化 将 有 助 于 加 快 学 习 阶 段 的 速 
度 。 对 于 基于 距离 的 方法 ， 规 范 化 可 以 帮助 防止 具有 较 大 初始 值 域 的 属性 (如 income) 与 
具有 较 小 初始 值 域 的 属性 〈 如 二 元 属性 ) 相 比 权重 过 大 。 在 没有 数据 的 先 验 知识 时 ， 规 范 
化 也 是 有 用 的 。 

有 许多 数据 规范 化 的 方法 ， 我们 将 学 习 三 种 : 最 小 -最 大 规范 化 、z 分 数 规 范 化 和 按 小 
数 定 标 规范 化 。 在 我 们 的 讨论 中 ， 令 4 是 数值 属性 ， 具 有 n PIW o, v, =, Dao 

最 小 -最 大 规范 化 对 原始 数据 进行 线性 变换 。 假 设 min, 和 max, 分别 为 属性 A 的 最 小 值 
和 最 大 值 。 最 小 - 最 大 规范 化 通过 计算 

v= 2 m í new_max, 一 new_min,) + new_min, (3.8) 

max, 一 min, 
把 4 的 值 w 映射 到 区 间 [new_min,, new_max,] 中 的 wi。 

最 小 -最 大 规范 化 保持 原始 数据 值 之 间 的 联系 。 如 果 今 后 的 输入 实例 落 在 4 的 原 数据 值 
域 之 外 ， 则 该 方法 将 面临 “越界 ”错误 。 

例 3.4 最 小 -最 大 规范 化 。 假 设 属性 income 的 最 小 值 与 最 大 值 分 别 为 12 000 美元 和 
98 000 美 元 。 我 们 想 把 income 映射 到 区 间 [0.0，1.0]。 根据 最 小 - 最 大 规范化 ，income 值 


— e cay, hs. 73 600 -12000 E E 
73 600 美 元 将 变换 为 : SF 009 12000 (12-0) +0=0.716。 a 


在 z 分 数 (z-score) 规范 化 (或 零 均 值 规范 化 ) 中 ， 属 性 4 的 值 基于 4 的 均值 (E 
均值 ) 和 标准 差 规范 化 。4 的 值 w 被 规范 化 为 ， 由 下 式 计算 : 
v.—A 
v= 二 一 一 (3.9) 


Oa 


FEF, AA o, 分别 为 属性 A 的 均值 和 标准 差 。 均 值 和 标准 差 已 在 2. 2 ihe, Hp A= 
a (w+w+…+w)， 而 4 用 4 的 方差 的 平方 根 计算 ( 见 (2.6) 式 )。 当 属性 4 的 实际 最 


小 值 和 最 大 值 未 知 ， 或 离 群 点 左右 了 最 小 - 最 大 规范 化 时 ， 该 方法 是 有 用 的 。 
例 3.5 z 分数 规范 化 。 假 设 属性 income 的 均值 和 标准 差分 别 为 54 000 美元 和 16 000 美 


元 。 使 用 z 分数 规范 化 ， 值 73 600 美元 被 转换 为 卫 ON SE 00 1. 225。 加 


(3.9) 式 的 标准 差 可 以 用 均值 绝对 偏差 替换 。 A 的 均值 绝对 偏差 (mean absolute devia- 
tion)ss 定义 为 


1 一 — — 
sa = 7 (lv -Al+ |o -Al+ + |v, - Al) (3. 10) 


这 样 ， 使 用 均值 绝对 差 的 z 分 数 规范 化 为 


1 一 
v; = 


», -A 


34 





(3.11) 
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对 于 离 群 点 ， 均 值 绝对 偏差 s， 上 比 标准 差 更 加 和 鲁 棒 。 在 计算 均值 绝对 偏差 时 ， 不 对 到 均 
值 的 偏差 ( 即 |x, -x|) 取 平 方 ， 因 此 离 群 点 的 影响 多 少 有 点 降低 。 

小 数 定 标 规范 化 通过 移动 属性 4 的 值 的 小 数 点 位 置 进 行规 范 化 。 小 数 点 的 移动 位 数 依赖 
于 4 的 最 大 绝对 值 。4 KIME v, 被 规范 化 为 vi， 由 下 式 计算 

v= Io (3. 12) 

其 中 , 7 是 使 得 max (Jo <1 的 最 小 整数 。 

例 3.6 小 数 定 标 。 假 设 4 的 取 值 由 -986 到 917。4 的 最 大 绝对 值 为 986。 因 此 ， 为 使 
用 小 数 定 标 规范 化 ， 我 们 用 1000( 即 7=3) 除 每 个 值 。 因 此 ，-986 被 规范 化 为 -0.986， 而 
917 被 规范 化 为 0. 917。 | 

注意 ， 规 范 化 可 能 将 原来 的 数据 改变 很 多 ， 特 别 是 使 用 z 分 数 规范 化 或 小 数 定 标 规范 化 
时 尤其 如 此 。 还 有 必要 保留 规范 化 参数 〈 如 均值 和 标准 差 ， 如 果 使 用 2 分 数 规范 化 的 话 ) ， 
以 便 将 来 的 数据 可 以 用 一 致 的 方式 规范 化 。 


3.5.3 通过 分 箱 离散 化 


分 箱 是 一 种 基于 指定 的 箱 个 数 的 自 项 向 下 的 分 裂 技术 。3. 2. 2 节 讨 论 了 数据 光滑 的 分 箱 
方法 。 这 些 方法 也 可 以 用 作 数 据 归 约 和 概念 分 层 产生 的 离散 化 方法 。 例 如 ， 通 过 使 用 等 宽 或 
等 频 分 箱 ， 然 后 用 箱 均值 或 中 位 数 替换 箱 中 的 每 个 值 ， 可 以 将 属性 值 离散 化 ， 就 像 用 箱 的 均 
值 或 箱 的 中 位 数 光滑 一 样 。 这 些 技术 可 以 递归 地 作用 于 结果 划分 ， 产 生 概念 分 层 。 

分 箱 并 不 使 用 类 信息 ， 因 此 是 一 种 非 监督 的 离散 化 技术 。 它 对 用 户 指定 的 箱 个 数 很 敏 
感 ， 也 容易 受 离 群 点 的 影响 。 


3.5.4 通过 直方 图 分 析 离 散 化 


像 分 箱 一 样 ， 直 方 图 分 析 也 是 一 种 非 监督 离散 化 技术 ， 因 为 它 也 不 使 用 类 信息 。 直 方 图 
已 在 2.2. 3 节 介 绍 过 。 直 方 图 把 属性 4 的 值 划分 成 不 相交 的 区 间 ， 称 做 桶 或 箱 。 

可 以 使 用 各 种 划分 规则 定义 直方 图 (3.4.6 节 )。 例 如 ， 在 等 宽 直 方 图 中 ， 将 值 分 成 相 
等 分 区 或 区 间 (例如 ， 图 3.8 的 price， 其 中 每 个 桶 宽度 为 10 美元 ) 。 理 想 情况 下 ， 使 用 等 频 
直方 图 ， 值 被 划分 ， 使 得 每 个 分 区 包括 相同 个 数 的 数据 元 组 。 直 方 图 分 析 算法 可 以 递归 地 用 
于 每 个 分 区 ， 自 动 地 产生 多 级 概念 分 层 ， 直 到 达到 一 个 预先 设 定 的 概念 层 数 ， 过 程 终止。 也 
可 以 对 每 一 层 使 用 最 小 区 间 长 度 来 控制 递归 过 程 。 最 小 区 间 长 度 设 定 每 层 每 个 分 区 的 最 小 宽 
E, 或 每 层 每 个 分 区 中 值 的 最 少数 目 。 正 如 下 面 将 介绍 的 那样 ， 直 方 图 也 可 以 根据 数据 分 布 
的 聚 类 分 析 进 行 划分 。 


3.5.5 通过 聚 类 、 决 策 树 和 相关 分 析 离散 化 


聚 类 、 决 策 树 和 相关 分 析 可 以 用 于 数据 离散 化 。 我 们 简略 讨论 这 些 方法 。 

聚 类 分 析 是 一 种 流行 的 离散 化 方法 。 通 过 将 属性 A 的 值 划分 成 能 或 组 ， 聚 类 算法 可 以 用 
来 离散 化 数值 属性 4。 聚 类 考虑 4 的 分 布 以 及 数据 点 的 邻近 性 ， 因 此 可 以 产生 高 质量 的 离散 
化 结果 。 

遵循 和 目 顶 向 下 的 划分 策略 或 自 底 向 上 的 合并 策略 ， 聚 类 可 以 用 来 产生 4 的 概念 分 层 ， 其 
中 每 个 簇 形成 概念 分 层 的 一 个 结 点 。 在 前 一 种 策略 中 ， 每 一 个 初始 秘 或 分 区 可 以 进一步 分 解 
成 者 干 子 儿 ,形成 较 低 的 概念 层 。 在 后 一 种 策略 中 ， 通 过 反复 地 对 邻近 簇 进 行 分 组 ， 形 成 较 
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高 的 概念 层 。 数 据 控 据 的 集 类 方法 将 在 第 10 章 和 第 11 章 研究 。 

为 分 类 生成 分 类 决策 树 (第 8 章 ) 的 技术 可 以 用 于 离散 化 。 这 类 技术 使 用 自 顶 向 下 划 
分 方法 。 不 同 于 目前 已 经 提 到 过 的 方法 ， 离 散 化 的 决策 树 方法 是 监督 的 ， 因 为 它们 使 用 类 标 
号 。 例 如 ,我们 可 能 有 患者 症状 (属性 ) 数据 集 ， 其 中 每 个 患者 具有 一 个 诊断 结论 类 标号 。 
类 分 布 信息 用 于 计算 和 确定 划分 点 〈 划 分 属性 区 间 的 数据 值 ) 。 直 观 地 说 ， 其 主要 思想 是 ， 
选择 划分 点 使 得 一 个 给 定 的 结果 分 区 包含 尽 可 能 多 的 同类 元 组 。 粹 是 最 常用 于 确定 划分 点 的 
BEB. AT ABBE A, BORER ME A 的 值 作为 划分 点 ， 并 递归 地 划分 结 
果 区 间 ， 得 到 分 层 离 散 化 。 这 种 离散 化 形成 4 的 概念 分 层 。 

由 于 基于 决策 树 的 离散 化 使 用 类 信息 ， 因 此 区 间 边 界 (划分 点 ) 更 有 可 能 定义 在 有 助 
于 提高 分 类 准确 率 的 地 方 。 决 策 树 和 炉 度量 在 8. 2. 2 节 更 详细 地 讨论 。 

相关 性 度量 也 可 以 用 于 离散 化 。ChiMerge 是 一 种 基于 好 的 离散 化 方法 。 到 目前 为 止 ， 
我 们 研究 的 离散 化 方法 都 使 用 自 项 向 下 的 划分 策略 。ChiMerge 正好 相反 ， 它 采用 自 底 向 上 的 
策略 ， 递 归 地 找 出 最 邻近 的 区 间 ， 然 后 合并 它们 ， 形 成 较 大 的 区 间 。 与 决策 树 分 析 一 样 ， 
ChiMerge 是 监督 的 ， 因 为 它 使 用 类 信息 。 其 基本 思想 是 ， 对 于 精确 的 离散 化 ， 相 对 类 频率 在 
一 个 区 间 内 应 当 完 全 一 致 。 因 此 ， 如 果 两 个 邻近 的 区 间 具 有 非常 类 似 的 类 分 布 ， 则 这 两 个 区 
间 可 以 合并 ; 否则 ， 它 们 应 当 保持 分 开 。 

ChiMerge 过 程 如 下 。 初 始 时 ， 把 数值 属性 4 的 每 个 不 同 值 看 做 一 个 区 间 。 对 每 对 相 邻 区 
间 进 行 X 检验。 具有 最 小 x? 值 的 相 邻 区 间 合 并 在 一 起 ， 因 为 低 x? 值 表明 它们 具有 相似 的 类 
分 布 。 该 合并 过 程 递 归 地 进行 ， 直 到 满足 预先 定义 的 终止 条 件 。 


3.5.6 标 称 数据 的 概念 分 层 产 生 


现在 ， 我 们 考察 标 称 数 据 的 数据 变换 。 特 别 地 ， 我 们 研究 标 称 属性 的 概念 分 层 产 生 。 标 
称 属性 具有 有 穷 多 个 不 同 值 ( 但 可 能 很 多 ) ， 值 之 间 无 序 。 例 如 地 理 位 置 、 工 作 类 别 和 商品 
类 型 。 

对 于 用 户 和 领域 专家 而 言 ， 人 工 定义 概念 分 层 是 一 项 乏味 和 耗 时 的 任务 。 幸 运 的 是 ， 许 
多 分 层 结构 都 隐藏 在 数据 库 的 模式 中 ， 并 且 可 以 在 模式 定义 级 自动 地 定义 。 概 念 分 层 可 以 用 
来 把 数据 变换 到 多 个 粒度 层 。 例 如 ， 关 于 销售 的 数据 挖掘 模式 除了 在 单个 分 店 挖掘 之 外 ， 还 
可 以 针对 指定 的 地 区 或 国家 挖掘 。 

下 面 我 们 研究 四 种 标 称 数据 概念 分 层 的 产生 方法 。 

(1) 由 用 户 或 专家 在 模式 级 显 式 地 说 明 属性 的 部 分 序 : 通常 ， 标 称 属性 或 维 的 概念 分 
层 涉 及 一 组 属性 。 用 户 或 专家 可 以 在 模式 级 通过 说 明 属 性 的 偏 序 或 全 序 ， 很 容易 地 定义 概念 
分 层 。 例 如 ， 假设 关 系数 据 库 包 含 如 下 一 组 属性 : street, city, Province _or_state 和 country, 
类 似 地 ， 数 据 仓库 的 维 location 可 能 包含 相同 的 属性 。 可 以 在 模式 级 说 明 这 些 属性 的 一 个 全 
序 ， 如 street < city < province_or_state < country， 来 定义 分 层 结构 。 

(2) 通过 显 式 数 据 分 组 说 明 分 层 结构 的 一 部 分 : 这 本 质 上 是 人 工地 定义 概念 分 层 结构 
的 一 部 分 。 在 大 型 数据 库 中 ， 通 过 显 式 的 值 枚 举 定义 整个 概念 分 层 是 不 现实 的 。 然 而 ， 对 于 
一 小 部 分 中 间 层 数据 ， 我 们 可 以 很 容易 地 显 式 说 明 分 组 。 例 如 ， 在 模式 级 说 明了 province 和 
country 形成 一 个 分 层 后 ， 用 户 可 以 人 工地 添加 某 些 中 间 层 。 如 量 式 地 定义 “ | Albert, 
Saskatchewan, Manitoba} C prairies_Canada” 和 “ {British Columbia, prairies_Canada} C West- 


ern_Canada” , 


(3) 说 明 属 性 集 但 不 说 明 它 们 的 偏 序 : 用 户 可 以 说 明 一 个 属性 集 形成 概念 分 层 ， 但 并 


77 
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不 显 式 说 明 它们 的 偏 序 。 然 后 ， 系 统 可 以 试图 自动 地 产生 属性 的 序 ， 构 造 有 意义 的 概念 
分 层 。 

“没有 数据 语义 的 知识 ， 如 何 找 出 任意 的 标 称 属性 集 的 分 层 序 ?” 考 虑 下 面 的 观察 : 由 
于 一 个 较 高 层 的 概念 通常 包含 若干 从 属 的 较 低 层 概念 ， 定 义 在 较 高 概念 层 的 属性 〈 如 coun- 
try) 与 定义 在 较 低 概念 层 的 属性 (如 street) 相 比 ， 通 常 包含 较 少 的 不 同 值 。 根 据 这 一 观察 ， 
可 以 根据 给 定 属性 集中 每 个 属性 不 同 值 的 个 数 ， 自 动 地 产生 概念 分 层 。 具 有 最 多 不 同 值 的 属 
性 放 在 分 层 结构 的 最 底层 。 一 个 属性 的 不 同 值 个 数 越 少 ， 它 在 产生 的 概念 分 层 结构 中 所 处 的 
层次 越 高 。 在 许多 情况 下 ， 这 种 启发 式 规 则 都 很 顶 用 。 在 考察 了 所 产生 的 分 层 之 后 ， 如 果 必 
要 ， 局 部 层次 交换 或 调整 可 以 由 用 户 或 专家 来 做 。 

让 我 们 考察 这 种 方法 的 一 个 例子 。 

例 3.7 根据 每 个 属性 的 不 同 值 的 个 数 产生 概念 分 层 。 假 设 用 户 从 AllElectronics 数据 库 
中 选择 了 一 个 关于 location 的 属性 集 : street, country, province_or_state 和 city， 但 没有 指出 这 
些 属 性 之 间 的 分 层次 序 。 

location 的 概念 分 层 可 以 自动 地 产生 ， 如 图 3. 13 所 示 。 首 先 ， 根 据 每 个 属性 的 不 同 值 个 
数 ， 将 属性 按 升序 排列 ， 其 结果 如 下 (其 中 ， 每 个 属性 的 不 同 值 的 个 数 在 括号 中 ) country 
(15), province_or_state(365), city(3567), street(674 339 ) 。 其 次 ， 按 照排 好 的 次 序 ， 自 项 
向 下 产生 分 层 ， 第 一 个 属性 在 最 顶层， 最 后 一 个 属性 在 最 底层 。 最 后 ， 用 户 可 以 考察 所 产生 
的 分 层 ， 如 果 必 要 的 话 ， 修 改 它 ， 以 反映 属性 之 间 期 望 的 语义 联系 。 在 这 个 例子 中 ， 显 然 不 
需要 修改 所 产生 的 分 层 。 B 

注意 ， 这 种 启发 式 规则 并 非 万 无 一 失 。 例 
如 ， 数 据 库 中 的 时 间 维 可 能 包含 20 个 不 同 的 
年 ，12 个 不 同 的 月 ， 每 星期 7 个 不 同 的 天 。 然 
而 ， 这 并 不 意味 着 时 间 分 层 应 当 是 “year < 


month < days_of_the_week” , days_of_the_week 在 365 个 不 同 值 
分 层 结构 的 最 顶层 。 


(4) 只 说 明 部 分 属性 集 : 在 定义 分 层 时 ， 
用 户 有 时 可 能 不 小 心 ， 或 者 对 于 分 层 结构 中 应 
当 包 含 什 么 只 有 很 模糊 的 想法 。 因 此 ， 用 户 可 
能 在 分 层 结构 说 明 中 只 包含 了 相关 属性 的 一 小 
部 分 。 例 如 ， 用 户 可 能 没有 包含 location 的 分 层 
相关 的 所 有 属性 ， 而 只 说 明了 street 和 city, H 
了 处 理 这 种 部 分 说 明 的 分 层 结构 ， 在 数据 库 模 
式 中 嵌入 数据 语义 ， 使 得 语义 密切 相关 的 属性 ”图 3.13 基于 不 同 值 个 数 的 模式 概念 分 层 的 
能 够 捆 在 一 起 很 重要 。 这 样 ， 一 个 属性 的 说 明 Babi 
可 能 触发 整个 语义 密切 相关 的 属性 组 被 “ 拖 进 ”， 形 成 一 个 完整 的 分 层 结构 。 然 而 ， 必 要 
时 ， 用 户 应 当 可 以 选择 忽略 这 一 特性 。 

例 3.8 使 用 预先 定义 的 语义 关系 产生 概念 分 层 。 关 于 location 概念 ， 假 设 数 据 控 掘 专 
家 (作为 管理 者 ) 已 将 五 个 属性 number, street, city, province_or_state 和 country 捆绑 在 一 
起 ， 因 为 它们 关于 location 概念 是 语义 密切 相关 的 。 如 果 用 户 在 定义 location 的 分 层 结构 时 只 
说 明了 属性 ciiy， 则 系统 可 以 自动 地 拖 进 以 上 五 个 语义 相关 的 属性 ， 形 成 一 个 分 层 结构 。 用 
户 可 以 选择 去 掉 分 层 结构 中 的 任何 属性 ， 如 number 和 street, ik city 作为 该 分 层 结构 的 最 低 


15 个 不 同 值 


3567 个 不 同 值 


674 339 个 不 同 值 
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概念 层 。 . = 

总 之 ， 模 式 和 属性 值 计 数 信息 都 可 以 用 来 产生 标 称 数据 的 概念 分 层 。 使 用 概念 分 层 变换 
数据 使 得 较 高 层 的 知识 模式 可 以 被 发 现 。 它 允许 在 多 个 抽象 层 进行 挖掘 ， 这 是 许多 数据 挖掘 
应 用 的 共同 需要 。 


3.6 小 结 

。 数据 质量 用 准确 性 、 完 整 性 、 一 致 性 、 时 效 性 、 可 信 性 和 可 解释 性 定义 。 质 量 基 于 数据 的 应 用 目的 
评估 。 

。 数据 清理 例 程 试 图 填补 缺失 的 值 ， 光 滑 噪 声 同 时 识别 离 群 点 ， 并 纠正 数据 的 不 一 致 性 。 数 据 清理 通 
常 是 一 个 两 步 的 迭代 过 程 ， 包 括 偏差 检测 和 数据 变换 。 

。 数据 集成 将 来 自 多 个 数据 源 的 数据 整合 成 一 致 的 数据 存储 。 语 义 异种 性 的 解决 、 元 数据 、 相 关 分 
析 、 元 组 重复 检测 和 数据 冲突 检测 都 有 助 于 数据 的 顺利 集成 。 

。 数据 归 约 得 到 数据 的 归 约 表示 ， 而 使 得 信息 内 容 的 损失 最 小 化 。 数 据 归 约 方法 包括 维 归 约 、 数 量 归 
约 和 数据 压缩 。 维 归 约 减少 所 考虑 的 随机 变量 或 维 的 个 数 ， 方 法 包括 小 波 变换 、 主 成 分 分 析 、 属 性 
子 集 选择 和 属性 创建 。 数 量 归 约 方法 使 用 参数 或 非 参数 模型 ， 得 到 原 数 据 的 较 小 表示 。 参 数 模型 只 
存放 模型 参数 ， 而 非 实际 数据 。 例 如 回归 和 对 数 线性 模型 。 非 参数 方法 包括 直方 图 、 率 类 、 抽 样 和 
数据 立方 体 聚 集 。 数 据 压缩 方法 使 用 变换 ， 得 到 原 数据 的 归 约 或 “压缩 ”表示 。 如 果 原 数据 可 以 
由 压缩 后 的 数据 重 构 ， 而 不 损失 任何 信息 ， 则 数据 压缩 是 无 损 的 ; 否则 ， 它 是 有 损 的 。 

。 数据 变换 例 程 将 数据 变换 成 适 于 挖掘 的 形式 。 例 如 ， 在 规范 化 中 ， 属 性 数据 可 以 缩放 ， 使 得 它们 可 
以 落 在 较 小 的 区 间 ， 如 0.0 到 1.0。 其 他 例子 包括 数据 离散 化 和 概念 分 层 产 生 。 

。 数据 离散 化 通过 把 值 映射 到 区 间或 概念 标号 变换 数值 数据 。 这 种 方法 可 以 用 来 自动 地 产生 数据 的 概 
念 分 层 ， 而 概念 分 层 允 许 在 多 个 粒度 层 进行 控 掘 。 离 散 化 技术 包括 分 箱 、 直 方 图 分 析 、 聚 类 分 析 、 
决策 树 分 析 和 相关 分 析 。 对 于 标 称 数据 ， 概 念 分 层 可 以 基于 模式 定义 以 及 每 个 属性 的 不 同 值 个 数 
产生 。 

。 尽管 已 经 开发 了 许多 数据 预 处 理 的 方法 ， 由 于 不 一 致 或 脏 数据 的 数量 巨大 ， 以 及 问题 本 身 的 复杂 
性 ,数据 预 处 理 仍 然 是 一 个 活跃 的 研究 领域 。 


3.7 习题 


3.1 数据 质量 可 以 从 多 方面 评估 ， 包 括 准 确 性 、 完 整 性 和 一 致 性 问题 。 对 于 以 上 每 个 问题 ， 讨 论 数 据 质量 
的 评估 如 何 依赖 于 数据 的 应 用 目的 ， 给 出 例子 。 提 出 数据 质量 的 两 个 其 他 尺度 。 
3.2 在 现实 世界 的 数据 中 ， 某 些 属性 上 缺失 值得 到 元 组 是 比较 常见 的 。 讨 论处 理 这 一 问题 的 方法 。 
3.3 在 习题 2.2 中 ,属性 age 包括 如 下 值 (以 递增 序 ) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 
25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. 
(a) 使 用 深度 为 3 的 箱 ， 用 箱 均值 光滑 以 上 数据 。 说 明 你 的 步骤 ， 讨 论 这 种 技术 对 给 定数 据 的 效果 。 
(b) 如 何 确定 该 数据 中 的 离 群 点 ? 
(c) 还 有 什么 其 他 方法 来 光滑 数据 ? 
3.4 讨论 数据 集成 需要 考虑 的 问题 。 
3.5 如 下 规范 化 方法 的 值 域 是 什么 ? 
(a) 最 小 -最 大 规范 化 。 
(b) z 分 数 规范 化 。 
(c) z 分 数 规范 化 ， 使 用 均值 绝对 偏差 而 不 是 标准 差 。 
(d) 小 数 定 标 规范 化 。 
3.6 使 用 如 下 方法 规范 化 如 下 数据 组 : 
200, 300, 400, 600, 1000 
(a) $ mi =0，max =1， 最 小 -最 大 规范 化 。 
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(b) z 分 数 规范 化 。 . 
(c) 2 分数 规范 化 ， 使 用 均值 绝对 偏差 而 不 是 标准 差 。 
(d) 小 数 定 标 规范 化 。 
使 用 习题 3. 3 中 给 出 的 age 数据 ， 回 答 以 下 问题 : 
(a) 使 用 最 小 -最 大 规范 化 将 age 值 35 变换 到 [0.0，1.0] 区 间 。 
(b) 使 用 z 分 数 规范 化 变换 age 值 35， 其 中 age 的 标准 差 为 12. 94 岁 。 
(c) 使 用 小 数 定 标 规范 化 变换 age 值 35。 
(d) 指出 对 于 给 定 的 数据 ， 你 愿意 使 用 哪 种 方法 。 陈 述 你 的 理由 。 
使 用 习题 2. 4 中 给 出 的 age 和 %fat 数据 ， 回 答 如 下 问题 
(a) 基于 z 分 数 规范 化 ， 规 范 化 这 两 个 属性 。 
(b) 计算 相关 系数 《Pearson 积 矩 系数) 。 这 两 个 变量 是 正 相 关 还 是 负 相 关 ? 计算 它们 的 协 方差 。 
假设 12 个 销售 价格 记录 已 经 排序 ， 如 下 所 示 : 
5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 
使 用 如 下 各 方法 将 它们 划分 成 三 个 箱 。 
(a) 等 频 (等 深 ) 划分 。 
(b) 等 宽 划 分 。 
(c) RŽ., 
使 用 流程 图 概述 如 下 属性 子 集 选择 过 程 : 
(a) 逐步 向 前 选择 。 
(b) 逐步 向 后 删除 。 
(c) 结合 逐步 向 前 选择 和 逐步 向 后 删除 。 
使 用 习题 3. 3 中 给 出 的 age 数据 ， 
(a) 画 一 个 宽度 为 10 的 等 宽 的 直方 图 。 
(b) 简要 描述 如 下 每 种 抽样 技术 的 例子 : SRSWOR、SRSWR、 秘 抽样 、 分 层 抽样 。 使 用 大 小 为 5 的 
HEARE “young”, “middle_aged” FA “senior” 。 
ChiMerge [Ker92] 是 监督 的 、 自 底 向 上 的 〈 即 基于 合并 的 ) 数据 离散 化 方法 。 它 依赖 于 分 析 : 
具有 最 小 x 值 的 相 邻 区 间 合并 在 一 起 ， 直 到 满足 确定 的 停止 标准 。 
(a) 简略 描述 ChiMerge 如 何 工 作 。 
(b) 取 过 尾 花 数 据 集 作 为 待 离散 化 的 数据 集合 ， 营 尾 花 数据 集 可 以 从 UCI 机 器 学 习 数 据 库 
(www. ics. uci. edu/ ~ mlearn/MLRepository. html) 得 到 。 使 用 ChiMerge 方法 ， 对 四 个 数值 属性 分 
别 进行 离散 化 。( 令 停止 条 件 为 : max - interval = 6) 。 你 需要 写 一 个 小 程序 ， 以 避免 麻烦 的 数值 
计算 。 提 交 你 的 简要 分 析 和 检验 结果 : 分 裂 点 、 最 终 的 区 间 以 及 源 程 序 文档 。 
对 如 下 问题 ， 使 用 伪 代 码 或 你 喜欢 用 的 程序 设计 语言 ， 给 出 一 个 算法 : 
(a) 对 于 标 称 数据 ， 基 于 给 定 模式 中 属性 的 不 同 值 的 个 数 ， 自 动产 生 概 念 分 层 。 
(b) 对 于 数值 数据 ， 基 于 等 宽 划 分 规则 ， 自 动产 生 概 念 分 层 。 
(c) 对 于 数值 数据 ， 基 于 等 频 划 分 规则 ， 自 动产 生 概念 分 层 。 
数据 库 系 统 中 鲁 棒 的 数据 加 载 提 出 了 一 个 挑战 ， 因 为 输入 数据 常常 是 脏 的 。 在 许多 情况 下 ， 数 据 记 
录 可 能 缺少 多 个 值 ， 某 些 记录 可 能 被 污染 〈 即 某 些 数据 值 不 在 期 望 的 值 域内 或 具有 不 同 的 类 型 ) 。 
设计 一 种 自动 数据 清理 和 加 载 算法 ， 使 得 有 错误 的 数据 被 标记 ， 被 污染 的 数据 在 数据 加 载 时 不 会 错 
误 地 插入 到 数据 库 中 。 


文献 注释 


数据 预 处 理 在 许多 教科 书 中 都 有 讨论 ， 包 括 English[ Eng99 ] Pyle[ Pyl99], Loshin[ Los01 ] Redman 
[Red01], ， 以 及 Dasu 和 Johnson[ DJ03] 。 预 处 理 技术 的 更 多 专门 文献 在 下 面 给 出 。 
关于 数据 质量 的 讨论 见 Redman [ Red92 ] ， Wang, Storey 和 Firth{ WSF95], Wand 和 Wang[ WW96], 
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Ballou 和 Tayi[ BT99] ， 以 及 Olson[ 0ls03], 3.2.3 节 介绍 的 交互 式 数 据 清 理工 具 Potter’ s Wheel (control. cx. 
berkely. edu/abc) 由 Raman 和 Hellerstein[ RHO1] 提出 。 说 明 数 据 变 换 操 作 的 说 明 性 语言 开发 的 一 个 例子 在 
Galhardas 等 [ GFS 01] 中 给 出 。 缺 失 属 性 值 的 处 理 在 Friedman [ Fri77], Beriman, Friedman, Olshen 和 
Stone[ BFOS84] 以 及 Quinlan[ Qui89] 中 讨论 。Hua 和 Peil HP07] 提出 了 一 种 识别 伪装 缺失 数据 的 启发 式 
方法 ， 那 里 ， 当 用 户 不 愿意 泄露 个 人 信息 ， 错 误 地 选择 窗口 上 的 默认 值 (如 生日 的 “1 月 1 日 ") 时 ,这 种 
数据 就 被 捕获 。 

一 种 在 手写 字符 数据 库 中 检测 离 群 点 或 “垃圾 ”模式 的 方法 在 Guyon, Matic 和 Vapnik[ GMV96] 中 给 
出 。 分 箱 和 数据 规范 化 在 许多 教科 书 中 都 有 论述 ， 包 括 Kennedy 等 [KLV*98] Weiss 和 Indurkhya[ WI98]， 
AR Pyle[ Py199] 。 包 含 属性 〈 特 征 ) 构造 的 系统 包括 Langley, Simon, Bradshaw 和 Zytkow[ LSBZ87] 的 
BACON, ，Schlimmer[ Sch86] 的 Stagger, Pagallo[ Pag89] 的 FRINGE， 以 及 Bloedorn 和 Michalski 的 AQ17-DCI 
[BM98 ] 。 属 性 构造 也 在 Liu 和 Motoda[ LM98a, LM98b] 中 介绍 。Dasu 等 [DJMS02] 开发 了 BELLMAN 系 
统 ， 并 提出 了 通过 挖 气 数 据 库 结构 构建 数据 质量 浏览 器 的 一 些 有 趣 方法 。 

数据 归 约 的 一 个 很 好 的 综述 可 以 在 Barbara 等 [BDF*97] 中 找到 。 关 于 数据 立方 体 和 它 的 预计 算 算法 
见 Sarawagi 和 Stonebraker [ SS94 ] Agrawal 等 [AAD* 96 ] Harinarayan, Rajaraman 和 Ullman [ HRU96 ]， 
Ross 和 Srivastava[ RS97 ] ， 以 及 Zhao, Deshpande 和 Naughton[ ZDN97 ] 。 属 性 子 集 选择 (或 特征 子 集 选 择 ) 
在 许多 教材 中 都 有 介绍 ， 如 Neter、Kutner、Nachtsheim 和 Wasserman[ NKNW96], Dash 和 Liu[ DL97 ] ， 以 及 
Liu 和 Motoda[ LM98a，LM98b] 。 结 合 向 前 选择 和 向 后 删除 的 方法 由 Siedlecki 和 Sklansky[SS88] 提出 。 一 
种 属性 选择 的 包装 方法 在 Kohavi 和 John[ KJ97] 中 介绍 。 非 监督 的 属性 子 集 选择 在 Dash, Liu 和 Yao 
[ DLY97] 中 介绍 。 

关于 维度 归 约 的 小 波 介绍 见 Press. 、Teukolosky Vetterling 和 Flannery[ PTVF07 ] 。 小 波 的 一 般 性 介绍 可 
以 在 Hubbard[ Hub96 ] 中 找到 。 小 波 软 件 包 的 列表 见 Bruce, Donoho 和 Gao[ BDG96 ] Daubechies 变换 在 
Daubechies[ Dau92] 中 介绍 。Press 等 [PTVF07] 中 包含 了 关于 主 成 分 分 析 的 奇异 值 分 解 的 介绍 。PCA 的 例 
程 包含 在 大 部 分 统计 软件 包 中 ， 如 SAS (www. sas. com/SASHome. html) 。 

回归 和 对 数 线性 模型 的 介绍 在 一 些 教科 书 中 可 以 找到 ， 如 James[ Jam85], Dobson[ Dob90 ] Johnson 和 
Wichern[ JW92], ，Devore[ Dev95], ， 以 及 Neter, Kutner, Nachtsheim 和 Wasserman[ NKNW96 ] 。 关 于 对 数 线 性 
模型 (在 计算 机 科学 界 也 称 乘法 模型 )， 参 见 Pearl [ Pea88 ] 。 关 于 直方 图 的 一 般 性 介绍 ， 见 Barbara 等 
[ BDF*97], Devore 和 Peck[ DP97] 。 关 于 单 属性 直方 图 到 多 属性 直方 图 的 扩充 ， 见 Muralikrishna 和 DeWitt 
[ MD88 ] ，Poosala 和 loannidis[ PI97 ] 。 关 于 聚 类 算法 的 引文 在 本 书 的 第 10 章 和 第 11 章 给 出 ， 那 里 专门 讨论 
这 一 主题 。 

多 维 索引 结构 的 综述 在 Caede 和 Giinther[ GG98] 中 。 对 于 数据 聚集 使 用 多 维 索引 树 在 Aoki[ Aok98] 中 
讨论 。 索 引 树 包 括 R 树 (Guttman[ Gut84] ) 、 四 又 树 (Finkel 和 Bentley[ FB74] ) 和 它们 的 变种 。 关 于 抽样 
和 数据 挖掘 的 讨论 ， 见 Kivinen 和 Mannila[ KM94], John 和 Langley[ JL96] 。 

有 许多 方法 评估 属性 的 相关 性 ， 它 们 各 有 侧重 。 信 息 增 益 度量 偏向 于 具有 许多 值 的 属性 。 已 经 提出 了 
许多 替代 的 方法 ， 如 增益 率 〈Quinlan[ Qui93 ] ) ， 它 考虑 每 个 属性 值 的 概率 。 其 他 相关 性 度量 包括 基尼 指数 
(Breiman, Friedman, Olshen 和 Stone [ BFOS84 ] ) , y? 相依 表 统计 量 和 非 确定 系数 (Johnson 和 Wichern 
[JW92] ) 。 对 于 决策 树 归 纳 的 属性 选择 度量 比较 ， 见 Buntine 和 Niblett[ BN92 ] 。 关 于 其 他 方法 ， 见 Liu 和 
Motoda[ LM98b], Dash 和 Liu[ DL97] ， 以 及 Almuallim 和 Dietterich[ AD91 ] 。 

Liu 等 [LHTD02] 给 出 了 数据 离散 化 方法 的 全 面 综述 。 基 于 丧 的 离散 化 与 C4. 5 算法 在 Quinlan[ Qui93] 
中 介绍 。 在 Catlett[ Cat91] 中 ，D-2 系统 递归 地 二 分 数值 特征 。 Kerber[ Ker92 ] 的 ChiMerge，Liu 和 Setiono 
[LS95] 的 Chi2 都 是 数值 属性 的 自动 离散 化 方法 ， 二 者 都 使 用 了 x 统计 量 。Fayyad 和 Irani[ FI93] 使 用 最 
小 描述 长 度 原理 确定 数值 离散 化 的 区 间 数 。 概 念 分 层 和 由 分 类 数据 自动 地 产生 它们 在 Han 和 Ful HF94] 中 
介绍 。 
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数据 仓库 泛 化 、 合 并 多 维 空间 的 数据 。 构 造 数 据 仓库 涉及 数据 清理 、 数 据 集成 和 数据 变 
换 , 可 以 看 做 数据 挖掘 的 一 个 重要 预 处 理 步骤 。 此 外 ， 数 据 仓库 提供 联机 分 析 处 理 
(OLAP) 工具 ， 用 于 各 种 粒度 的 多 维 数据 的 交互 分 析 ， 有 利于 有 效 的 数据 泛 化 和 数据 挖掘 。 
许多 其 他 数据 挖掘 功能 ， 如 关联 、 分 类 、 预 测 和 聚 类 ， 都 可 以 与 OLAP 操作 集成 ， 以 加 强 多 
个 抽象 层 上 的 交互 知识 挖掘 。 因 此 ， 数 据 仓库 已 经 成 为 数据 分 析 和 联机 数据 分 析 处 理 的 日 趋 
重要 的 平台 ， 并 将 为 数据 挖掘 提供 有 效 的 平台 。 因 此 ， 构 造 数据 仓库 和 OLAP 已 经 成 为 知识 
发 现 过 程 的 基本 步骤 。 本 章 概 括 地 介绍 数据 仓库 和 OLAP 技术 。 对 于 理解 整个 数据 挖掘 与 知 
识 发 现 过 程 ， 这 种 概述 是 必要 的 。 

本 章 ， 我 们 将 学 习 广泛 接受 的 数据 仓库 定义 ， 并 考察 为 什么 越 来 越 多 的 组 织 正在 为 他 们 
的 数据 分 析 构建 数据 仓库 〈4. 1 节 ) 。 特 别 地 ， 我 们 将 研究 数据 立方 体 ， 它 是 一 种 用 于 数据 
仓库 和 OLAP 以 及 OLAP 操作 〈 如 上 卷 、 下 销 、 切 片 和 切 块 ) 的 多 维 数据 模型 (4.2 节 ) 。 
我 们 还 将 考察 数据 仓库 的 设计 和 使 用 (4. 3 节 )。 此 外 ,我们 讨论 多 维 数据 挖 气 一 一 一 种 
数据 仓库 和 OLAP 技术 与 数据 挖掘 集成 的 范 型 。 数 据 仓库 实现 的 概述 考察 数据 立方 体 的 有 
效 计算 OLAP 数据 索引 和 OLAP 查询 处 理 的 一 般 策略 〈4. 4 节 ) 。 最 后 ， 我 们 研究 通过 面 
向 属性 的 归纳 进行 数据 泛 化 (4.5 节 ) 。 这 种 方法 使 用 概念 分 层 ， 把 数据 泛 化 到 多 个 抽 
象 层 。 


4.1 数据 仓库 基本 概念 

本 节 是 数据 仓库 导论 。 我 们 从 数据 仓库 的 定义 (4. 1. 1 节 ) 开始 ， 概 述 操作 数据 库 系统 
与 数据 仓库 之 间 的 差别 (4. 1. 2 节 ) ， 并 解释 为 什么 需要 使 用 数据 仓库 分 析 数据 ， 而 不 是 在 
传统 的 数据 库 上 进行 分 析 (4.1.3 节 ) 。 随 后 介绍 数据 仓库 体系 结构 (4. 1.4 H). EF, R 
们 研究 三 种 数据 仓库 模型 一 一 企业 模型 、 数 据 集 市 和 虚拟 仓库 (4. 1.5 节 ) 。4. 1.6 节 建 立 
数据 仓库 的 后 端 工具 ， 如 提取 、 变 换 和 装 人 。 最 后 ，4. 1.7 节 介 绍 元 数据 库 ， 它 存放 关于 数 
据 的 数据 。 


4.1.1 什么 是 数据 仓库 


数据 仓库 的 建立 为 工商 企业 主管 提供 了 体系 结构 和 工具 ， 以 便 他 们 系统 地 组 织 、 理 解 和 
使 用 数据 进行 决策 。 在 当今 这 个 充满 竞争 和 快速 发 展 的 世界 ， 数 据 仓库 系统 是 一 种 有 价值 的 
工具 。 在 过 去 的 几 年 中 ,许多 公司 已 经 花费 了 数 百 万 美元 ， 建 立 起 企业 范围 的 数据 仓库 。 许 
多 人 感到 ， 随 着 工业 竞争 的 加 剧 ， 数 据 仓库 成 了 必 备 的 最 新 营销 武器 种 通过 更 多 地 了 
解 客户 需求 而 留 住 客户 的 途径 。 

“那么 ， 到底 什 么 是 数据 仓库 ?” 数 据 仓库 已 用 多 种 方式 定义 ， 很 难 给 出 一 种 严格 的 定 
Xo WHY, 数据 仓库 是 一 种 数据 库 ， 它 与 单位 的 操作 数据 库 分 别 维护 。 数 据 仓库 系统 允 
许 将 各 种 应 用 系统 集成 在 一 起 ， 为 统一 的 历史 数据 分 析 提 供 坚 实 的 平台 ， 对 信息 处 理 提供 
支持 。 
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按照 一 位 数据 仓库 系统 构造 方面 的 领衔 设计 师 William H. Inmon 的 说 法 , “数据 仓库 是 
一 个 面向 主题 的 、 集 成 的 、 时 变 的 、 非 易 失 的 数据 集合 ， 支持 管理 者 的 决策 过 程 ” 
[ Inm96 ] 。 这 个 简短 而 又 全 面 的 定义 指出 了 数据 仓库 的 主要 特征 。 四 个 关键 词 ， 面 向 主题 
的 、 集 成 的 、 时 变 的 、 非 易 失 的 ， 将 数据 仓库 与 其 他 数据 存储 系统 (如 关系 数据 库 系 统 、 
事务 处 理 系统 和 文件 系统 ) 相 区 别 。 

我 们 进一步 看 看 这 些 关键 特征 。 

© 面向 主题 的 subject-oriented) : 数据 仓库 围绕 一 些 重要 主题 ， 如 顾客 、 供 应 商 、 产 

品 和 销售 组 织 。 数 据 仓库 关注 决策 者 的 数据 建 模 与 分 析 ， 而 不 是 单位 的 日 常 操作 和 
事务 处 理 。 因 此 ， 数 据 仓库 通常 排除 对 于 决策 无 用 的 数据 ， 提 供 特 定 主题 的 简明 
视图 。 

。 RERI (integrated): 通常 ， 构 造 数据 仓库 是 将 多 个 异 构 数据 源 ， 如 关系 数据 库 、 

一 般 文件 和 联机 事务 处 理 记录 集成 在 一 起 。 使 用 数据 清理 和 数据 集成 技术 ， 确 保命 
名 约定 、 编 码 结构 、 属 性 度量 等 的 一 致 性 。 

e 时 变 的 〈time-variant) : 数据 存储 从 历史 的 角度 (例如 ， 过 去 5 ~ 10 年 ) 提供 信息 。 

数据 仓库 中 的 关键 结构 都 隐 式 或 显 式 地 包含 时 间 元 素 。 

。 非 易 失 的 (nonvolatile) : 数据 仓库 总 是 物理 地 分 离 存 放 数 据 ， 这 些 数 据 源 于 操作 环 

境 下 的 应 用 数据 。 由 于 这 种 分 离 ， 数 据 仓库 不 需要 事务 处 理 、 恢 复 和 并 发 控制 机 制 。 
通常 ， 它 只 需要 两 种 数据 访问 操作 : 数据 的 初始 化 装 入 和 数据 访问 。 

概 言 之 ， 数 据 仓库 是 一 种 语义 上 一 致 的 数据 存储 ， 它 充当 决策 支持 数据 模型 的 物理 实 
现 ， 并 存放 企业 战略 决策 所 需要 的 信息 。 数 据 仓库 也 常常 被 看 做 一 种 体系 结构 ， 通 过 将 
异 构 数 据 源 中 的 数据 集成 在 一 起 而 构建 ， 支 持 结构 化 和 /或 专门 的 查询 、 分 析 报告 和 决策 
制定 。 

根据 上 面 的 讨论 ， 我 们 把 建立 数据 仓库 (data warehousing) 看 做 构建 和 使 用 数据 仓库 的 
过 程 。 数 据 仓库 的 构建 需要 数据 集成 、 数 据 清理 和 数据 统一 。 数 据 仓 库 的 应 用 常常 需要 一 些 
决策 支持 技术 。 这 使 得 “知识 工人 ”( 例 如 ， 经 理 、 分 析 人 员 和 主管 ) 能 够 使 用 数据 仓库 快 
捷 、 方 便 地 得 到 数据 的 总 体 视图 ， 根 据 数据 仓库 中 的 信息 做 出 准确 的 决策 。 有 些 作者 使 用 术 


-Ñ “data warehousing” 表 示 构 造 数 据 仓库 的 过 程 ， 而 用 术语 “warehouse DBMS” 表示 数据 仓 


库 的 管理 和 使 用 。 我 们 将 不 区 分 二 者 。 

“单位 如 何 使 用 数据 仓库 中 的 信息 ?” 许 多 单位 都 使 用 这 些 信息 支持 商务 决策 活动 ， 包 
括 〈1) 提高 顾客 关注 度 ， 这 包括 分 析 顾客 购买 模式 〈 如 喜欢 买 什么 、 购 买 时 间 、 预 算 周 
期 、 消 费 习惯 );(2) 根据 按 季 度 、 按 年 和 按 地 区 的 营销 情况 比较 ， 重 新 配置 产品 和 管理 产 
品 的 投资 ， 调 整 生产 策略 ; (3) 分 析 运作 情况 并 找 出 利润 源 ; (4) 管理 客户 联系 ， 进 行 环 
境 调整 ， 管 理 公司 的 资产 开销 。 

从 异 构 数 据 库 集 成 的 角度 来 看 ， 数 据 仓库 也 是 非常 有 用 的 。 许 多 组 织 机 构 收集 了 形 形 色 
色 的 数据 ， 并 由 多 个 异 构 的 、 自 治 的 和 分 布 的 数据 源 维护 大 型 数据 库 。 集 成 这 些 数据 ， 并 提 
供 简便 、 有 效 的 访问 是 人 们 非常 期 望 的 ， 并 且 也 是 一 种 挑战 。 数 据 库 业 界 和 研究 界 都 正 朝 着 
实现 这 一 目标 竭尽 全 力 。 

对 于 异 构 数据 库 的 集成 ， 传 统 的 数据 库 做 法 是 .在 多 个 异 构 数据 库 上 ， 建 立 一 个 包装 程 
序 和 一 个 集成 程序 或 中 介 程 序 ) 。 当 查询 在 客户 站 点 提交 时 ， 首 先 使 用 元 数据 字典 对 查询 
进行 转换 ， 将 它 转换 成 相应 异 构 站 点 上 的 查询 。 然 后 ， 将 这 些 查询 映射 和 发 送 到 局 部 查询 处 
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理 器 。 由 不 同 站 点 返回 的 结果 被 集成 为 全 局 回答 。 这 种 查询 驱动 的 (query-driven) 方法 需 
要 复杂 的 信息 过 滤 和 集成 处 理 ， 并 且 与 局 部 数据 源 上 的 处 理 竞 争 资源 。 这 种 方法 是 低 效 的 ， 
并 且 对 于 频繁 的 查询 ， 特 别 是 需要 聚集 操作 的 查询 ， 开 销 可 能 很 大 。 

对 于 蜡 构 数 据 库 集成 的 传统 方法 ， 数 据 仓 库 提供 了 一 种 有 趣 的 蔡 代 方案 。 数 据 仓 库 使 
用 更 新 驱动 的 (update- driven) 方法 ， 而 不 是 查询 驱动 的 方法 。 这 种 方法 将 来 自 多 个 异 构 
源 的 信息 预先 集成 ， 并 存储 在 数据 仓库 中 ， 供 直接 查询 和 分 析 。 与 联机 事务 处 理 数 据 库 
AT, 数据 仓 库 不 包含 最 近 的 信息 。 然 而 ， 数 据 仓库 为 集成 的 异 构 数据 库 系统 带 来 了 高 
性 能 ， 因 为 数据 被 复制 、 预 处 理 、 集 成 、 注 释 、 汇 总 ， 并 重新 组 织 到 一 个 语义 一 致 的 数 
据 存储 中 。 数 据 仓 库 的 查询 处 理 并 不 影响 在 局 部 数据 源 上 进行 的 处 理 。 此 外 ， 数 据 仓库 
可 以 存储 并 集成 历史 信息 ， 支 持 复杂 的 多 维 查询 。 因 此 ， 建 立 数据 仓库 在 工业 界 已 经 非 
常 流行 。 


4.1.2 操作 数据 库 系统 与 数据 仓库 的 区 别 


由 于 大 多 数 人 都 熟悉 商用 关系 数据 库 系统 ， 将 数据 仓库 与 之 比较 ， 就 容易 理解 什么 是 数 
据 仓库 。 

联机 操作 数据 库 系统 的 主要 任务 是 执行 联机 事务 和 查询 处 理 。 这 种 系统 称 做 联机 事务 处 
理 〈Online Transaction Processing, OLTP) 系统 。 它 们 涵盖 了 单位 的 大 部 分 日 常 操 作 ， 如 购 
物 、 库 存 、 制 造 、 银 行 、 工 资 、 注 册 、 记 账 等 。 另 一 方面 ， 数 据 仓 库 系 统 在 数据 分 析 和 决策 
方面 为 用 户 或 “知识 工人 ”提供 服务 。 这 种 系统 可 以 用 不 同 的 格式 组 织 和 提供 数据 ， 以 便 
满足 不 同 用 户 的 形形色色 的 需求 。 这 种 系统 称 做 联机 分 析 处 理 (OnLine Analytical Process- 
ing，OLAP) 系统 。 

OLTP 和 OLAP 的 主要 区 别 概述 如 下 : 

。 用 户 和 系统 的 面向 性 : OLTP 是 面向 顾客 的 ， 用 于 办 事 员 、 客 户 和 信息 技术 专业 人 
员 的 事务 和 查询 处 理 。OLAP 是 面向 市 场 的 ， 用 于 知识 工人 (包括 经 理 、 主 管 和 分 
析 人 员 ) 的 数据 分 析 。 

。 数据 内 容 : OLTP 系统 管理 当前 数据 。 通 常 ， 这 种 数据 太 琐碎 ， 很 难 用 于 决策 。 
OLAP 系统 管理 大 量 历史 数据 ， 提 供 汇总 和 聚集 机 制 ， 并 在 不 同 的 粒度 层 上 存储 和 
管理 信息 。 这 些 特 点 使 得 数据 更 容易 用 于 有 根据 的 决策 。 

。 数据 库 设计 : 通常 ，OLTP 系统 采用 实体 - 联系 (ER) 数据 模型 和 面向 应 用 的 数据 
库 设计 。 而 OLAP 系统 通常 采用 星 形 或 雪花 模型 (在 4.2.2 小 节 讨 论 ) 和 面向 主题 
的 数据 库 设 计 。 

© 视图 : OLP 系统 主要 关注 一 个 企业 或 部 门 内 部 的 当前 数据 ， 而 不 涉及 历史 数据 或 
不 同 单位 的 数据 。 相 比 之 下 ， 由 于 单位 的 演变 ，OLAP 系统 常常 跨越 数据 库 模 式 的 
多 个 版 本 。OLAP 系统 还 处 理 来 自 不 同 单位 的 信息 ， 以 及 由 多 个 数据 库 集 成 的 信息 。 
由 于 数据 量 巨大 ，OLAP 数据 也 存放 在 多 个 存储 介质 上 。 

。 访问 模式 : OLTP 系统 的 访问 主要 由 短 的 原子 事务 组 成 。 这 种 系统 需要 并 发 控制 和 
恢复 机 制 。 然 而 ， 对 OLAP 系统 的 访问 大 部 分 是 只 读 操 作 (由 于 大 部 分 数据 仓库 存 
放 历 史 数据 ， 而 不 是 最 新 数据 ) ， 尽 管 许多 可 能 是 复杂 的 查询 。 

OLTP 和 OLAP 的 其 他 区 别 包 括 数据 库 大 小 、 操 作 的 频繁 程度 、 性 能 度量 等 。 这 些 都 概 

括 在 表 4. 1 中 。 
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表 4.1 OLTP 系统 与 OLAP 系统 的 比较 





特征 OLTP OLAP 
特性 操作 处 理 信息 处 理 
面向 事务 分 析 
用 户 办 事 员 、DBA 、 数 据 库 专业 人 员 知识 工人 (如 经 理 、 主 管 、 分 析 人 员 ) 
功能 日 常 操作 长 期 信息 需求 、 决 策 支持 

DB 设计 基于 E-R， 面 向 应 用 星 形 / 雪 花 、 面 向 主题 
数据 当前 的 、 确 保 最 新 历史 的 、 跨 时 间 维 护 
汇总 原始 的 、 高 度 详 细 汇总 的 、 统 一 的 
视图 详细 、 一 般 关 系 汇总 的 、 多 维 的 

工作 单元 短 的 、 简 单 事务 复杂 查询 
访问 读 / 写 大 多 为 读 
关注 数据 进入 信息 输出 
操作 主 码 上 索引 / 散 列 大 其 扫描 

访问 记录 数量 数 十 数 百 万 

用 户 数 数 千 . 数 百 

DB 规模 GB 到 高 达 GB >TB 
优先 高 性 能 、 高 可 用 性 高 灵活 性 、 终 端 用 户 自治 
度量 事务 春 吐 量 查询 春 吐 量 、 响 应 时 间 


È: 该 表 部 分 基于 Chaudhuri 和 Dayal[ CD97], 


4.1.3 为 什么 需要 分 离 的 数据 仓库 


既然 操作 数据 库存 放 了 大 量 数据 ， 你 可 能 奇怪 “为 什么 不 直接 在 这 种 数据 库 上 进行 联 
机 分 析 处 理 ， 而 是 另外 花费 时 间 和 资源 去 构造 分 离 的 数据 仓库 ?” 分 离 的 主要 原因 是 有 助 于 
提高 两 个 系统 的 性 能 。 操 作 数 据 库 是 为 已 知 的 任务 和 负载 设计 的 ， 如 使 用 主 码 索 引 和 散 列 ， 
检索 特定 的 记录 ， 优 化 “定制 的 ”查询 。 另 一 方面 ， 数 据 仓库 的 查询 通常 是 复杂 的 ， 涉 及 
大 量 数据 在 汇总 级 的 计算 ， 可 能 需要 特殊 的 基于 多 维 视图 的 数据 组 织 、 存 取 方 法 和 实现 方 
法 。 在 操作 数据 库 上 处 理 OLAP 查询 ， 可 能 会 大 大 降低 操作 任务 的 性 能 。 

此 外 ， 操 作 数 据 库 支 持 多 事务 的 并 发 处 理 ， 需 要 并 发 控制 和 恢复 机 制 ( 例 如， 加 锁 和 
记 日 志 ) ， 以 确保 一 致 性 和 事务 的 鲁 棱 性 。 通 常 ，OLAP 查询 只 需要 对 汇总 和 聚集 数据 记录 
进行 只 读 访 问 。 如 果 将 并 发 控制 和 恢复 机 制 用 于 这 种 OLAP 操作 ， 就 会 危害 并 行事 务 的 运 
行 ， 从 而 大 大 降低 OLTP 系统 的 吞吐 量 。 

最 后 ， 数 据 仓 库 与 操作 数据 库 分 离 是 由 于 这 两 种 系统 中 数据 的 结构 、 内 容 和 用 法 都 不 相 
同 。 决 策 支持 需要 历史 数据 ， 而 操作 数据 库 一 般 不 维护 历史 数据 。 在 这 种 情况 下 ， 操 作 数 据 
库 中 的 数据 尽管 很 丰富 ， 但 对 于 决策 ， 常 常 还 是 远 非 完整 的 。 决 策 支 持 需 要 整合 来 自 异 构 源 
的 数据 〈 例 如 ， 聚 集 和 汇总 ) ， 产 生 高 质量 的 、 纯 净 的 和 集成 的 数据 。 相 比 之 下 ， 操 作 数 据 
库 只 维护 详细 的 原始 数据 (如 事务 ) ， 这 些 数据 在 进行 分 析 之 前 需要 整理 。 由 于 两 种 系统 提 
供 大 不 相同 的 功能 ， 需 要 不 同类 型 的 数据 ， 因 此 需要 维护 分 离 的 数据 库 。 然 而 ， 许 多 关系 数 
据 库 管 理 系统 供应 商 正 开始 优化 这 种 系统 ， 使 之 支持 OLAP 查询 。 随 着 这 一 趋势 的 继续 ， 
OLTP 和 OLAP 系统 之 间 的 分 离 有 望 减少 。 


4.1.4 数据 仓库 : 一 种 多 层 体系 结构 
通常 ， 数 据 仓 库 采 用 三 层 体系 结构 ， 如 图 4. 1 所 示 。 
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查询 /报表 
! T 顶层 : 
| T 前 端 工具 
输出 
OLAP 服 务 器 OLAP 服 务 器 
中 间 层 : 
OLAP 服 务 器 























底层 : 
= 数据 仓库 服务 器 











数据 


TA 


操作 数据 库 外 部 数据 源 
图 4.1 三 层 数据 仓库 结构 


(1) 底层 是 仓库 数据 库 服务 器 ， 它 几乎 总 是 一 个 关系 数据 库 系统 。 使 用 后 端 工 具 和 实 
用 程序 ， 由 操作 数据 库 或 其 他 外 部 数据 源 〈 例 如 ， 由 外 部 咨询 者 提供 的 顾客 侧面 信息 ) 提 
取 数 据 ， 放 和 人 底层。 这些 工具 和 实用 程序 进行 数据 提取 、 清 理 和 变换 〈 例 如， 将 来 自 不 同 
数据 源 的 数据 合并 成 一 致 的 格式 ) ， 以 及 装 人 和 有 刷新， 以 更 新 数据 仓库 (4.1.6 节 ) 。 数 据 提 
取 使 用 一 种 称 做 信 关 (gateway) 的 应 用 程序 。 信 关 由 基础 DBMS 支持 ， 允 许 客 户 程序 产生 
SQL 代码 ， 在 服务 器 上 执行 。 信 关 的 例子 包括 微软 的 ODBC 〈 开 放 数 据 库 连 接 ) 和 OLE-DB 

(数据 库 开放 链接 和 嵌入 ) 以 及 JDBC (Java 数据 库 连 接 ) 。 这 一 层 还 包括 元 数据 库 ， 存 放 关 

于 数据 仓库 和 它 的 内 容 的 信息 。 元 数据 库 在 4. 1.7 节 进 一 步 介绍 。 

(2) 中 间 层 是 OLAP 服务 器， 其 典型 的 实现 使 用 (i) 关系 OLAP (ROLAP) 模型 
( 即 扩充 的 关系 DBMS ， 它 将 多 维 数据 上 的 操作 映射 为 标准 的 关系 操作 ) ， 或 者 使 用 〈ii) 多 
HE OLAP (MOLAP) 模型 〈 即 专门 的 服务 器 ， 它 直接 实现 多 维 数据 和 操作 ) OLAP 服务 器 
在 4.4.4 节 讨论 。 

(3) 顶层 是 前 端 客户 层 ， 它 包括 查询 和 报告 工具 、 分 析 工 具 和 /或 数据 挖掘 工具 (全 
如 ， 趋 势 分 析 、 预 测 等 ) 。 
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4.1.5 数据 仓库 模型 : 企业 仓库 、 数 据 集 市 和 虚拟 仓库 


从 结构 的 角度 看 ， 有 三 种 数据 仓库 模型 : 企业 仓库 、 数 据 集 市 和 虚拟 仓库 。 

企业 仓库 (enterprise warehouse); 企业 仓库 搜集 了 关于 主题 的 所 有 信息 ， 跨 越 整 个 企 
业 。 它 提供 企业 范围 内 的 数据 集成 ， 通 常 来 自 一 个 或 多 个 操作 数据 库 系统 或 外 部 信息 提供 
者 ， 并 且 是 多 功能 的 。 通 常 ， 它 包含 细节 数据 和 汇总 数据 ， 其 规模 由 数 兆 兆 字 节 ， 到 数 百 兆 
兆 字 节 ， 数 千 兆 兆 字 节 ， 甚 至 更 多 。 企 业 数 据 仓 库 可 以 在 传统 的 大 型 机 、 超 级 计算 机 服务 器 
或 并 行 结构 平台 上 实现 。 它 需要 广泛 的 商务 建 模 ， 可 能 需要 多 年 设计 和 建设 。 

数据 集 市 (data mart): 数据 集 市 包含 企业 范围 数据 的 一 个 子 集 ， 对 于 特定 的 用 户 群 是 
有 用 的 。 其 范围 限于 选 定 的 主题 。 例 如 ， 销 售 数 据 集 市 可 能 限定 其 主题 为 顾客 、 商 品 和 销 
售 。 包 括 在 数据 集 市 中 的 数据 通常 是 汇总 的 。 

通常 ， 数 据 集 市 可 以 在 低 价格 的 部 门 服务 器 上 实现 ， 基 于 UNIX/Linux 或 Windows。 数 
据 集 市 的 实现 周期 一 般 是 数 以 周 计 ， 而 不 是 数 以 月 计 或 数 以 年 计 。 然 而 ， 如 果 它 的 设计 和 规 
划 不 是 企业 范围 的 ， 从 长 远 来 看 ， 可 能 涉及 很 复杂 的 集成 。 

根据 数据 的 来 源 不 同 ， 数 据 集 市 分 为 独立 的 和 依赖 的 两 类 。 在 独立 的 数据 集 市 中 ,数据 
来 自 一 个 或 多 个 操作 数据 库 系统 或 外 部 信息 提供 者 ， 或 者 来 自在 一 个 特定 的 部 门 或 地 区 局 部 
产生 的 数据 。 依 赖 的 数据 集 市 的 数据 直接 来 自 企 业 数据 仓库 。 

虚拟 仓库 (virtual warehouse): 虚拟 仓库 是 操作 数据 库 上 视图 的 集合 。 为 了 有 效 地 处 理 
查询 ， 只 有 一 些 可 能 的 汇总 视图 被 物化 。 虚 拟 仓库 易于 建立 ， 但 需要 操作 数据 库 服务 器 还 有 
余力 。 

“数据 仓库 开发 的 自 项 向 下 和 自 底 向 上 方法 的 优 缺点 是 什么 ?” 自 顶 向 下 开发 企业 仓库 
是 一 种 系统 的 解决 方案 ， 并 能 最 大 限度 地 减少 集成 问题 。 然 而 ， 它 费用 高 ， 开 发 周期 长 ， 并 
且 缺 乏 灵活 性 ， 因 为 整个 组 织 就 共同 数据 模型 达成 一 致 是 比较 困难 的 。 设 计 、 开 发 、 配 置 独 
立 的 数据 集 市 的 自 底 向 上 的 方法 提供 了 灵活 性 、 低 花费 ， 并 能 快速 回报 投资 。 然 而 ， 将 分 散 
的 数据 集 市 集成 ， 形 成 一 个 一 致 的 企业 数据 仓库 时 ， 可 能 导致 问题 。 

对 于 开发 数据 仓库 系统 ， 一 种 推荐 
的 方法 是 以 递增 、 进 化 的 方式 实现 数据 
仓库 ， 如 图 4.2 所 示 。 首 先 ， 在 一 个 合 
理 短 的 时 间 内 (如 一 两 个 月 ) ， 定 义 一 
个 高 层次 的 企业 数据 模型 ， 在 不 同 的 主 
题 和 可 能 的 应 用 之 间 ， 提 供 企业 范围 的 、 
一 致 的 、 集 成 的 数据 视图 。 这 个 高 层 模 
型 将 大 大 减少 今后 的 集成 问题 ， 尽 管 在 
企业 数据 仓库 和 部 门 数据 集 市 的 开发 中 ， 
它 还 需要 进一步 提炼 。 其 次 ， 基 于 上 述 
相同 的 企业 数据 模型 ， 可 以 并 行 地 实现 
独立 的 数据 集 市 和 企业 数据 仓库 。 再 次 ， 
可 以 通过 中 心服 务 器 集成 不 同 的 数据 集 
市 ， 构 造 分 布 数据 集 市 。 最 后 ， 构 造 一 定义 高 层 企业 数据 模型 
个 多 层 数据 仓库 (multitier data ware- 
house), ， 这 里 ， 企 业 仓 库 是 所 有 仓库 数 图 4.2 数据 仓库 开发 的 推荐 方法 
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据 的 唯一 管理 者 ， 仓 库 数据 分 布 在 一 些 依赖 的 数据 集 市 中 。 


4.1.6 数据 提取 、 变 换 和 装 入 


数据 仓库 系统 使 用 后 端 工具 和 实用 程序 来 加 载 和 刷新 它 的 数据 〈 见 图 4. 1) 。 这 些 工 具 
和 实用 程序 包含 以 下 功能 : 

。 数据 提取 : 通常 ， 由 多 个 异 构 的 外 部 数据 源 收集 数据 。 

。 数据 清理 : 检测 数据 中 的 错误 ， 可 能 时 订正 它们 。 

。 数据 变换 : 将 数据 由 遗产 或 宿主 格式 转换 成 数据 仓库 格式 。 

。 装 入 : 排序 、 汇 总 、 合 并 、 计 算 视 图 、 检 查 完整 性 ， 并 建立 索引 和 划分 。 

。 刷新 : 传播 由 数据 源 到 数据 仓库 的 更 新 。 

除 清理 、 装 和 人、 刷新 和 元 数据 定义 工具 外 ， 数 据 仓库 系统 通常 还 提供 一 组 数据 仓库 管理 
工具 。 

数据 清理 和 数据 变换 是 提高 数据 质量 ， 从 而 提高 其 后 的 数据 挖掘 结果 质量 的 重要 步 又 
( 见 第 3 章 )。 由 于 我 们 的 主要 兴趣 在 于 与 数据 挖 气 有 关 的 数据 仓库 技术 ， 因 此 我 们 不 深入 
讨论 这 些 工 具 的 细节 ， 建 议 有 兴趣 的 读者 查阅 有 关 数 据 仓库 技术 的 书籍。 


4. 1.7 元 数据 库 


元 数据 是 关于 数据 的 数据 。 在 数据 仓库 中 ， 元 数据 是 定义 仓库 对 象 的 数据 。 图 4. 1 显示 
元 数据 库 在 数据 仓库 体系 结构 的 底层 。 对 于 给 定 的 数据 仓库 的 数据 名 和 定义 ， 创 建 元 数据 。 
其 他 元 数据 包括 对 提取 数据 添加 的 时 间 标 签 、 提 取 数 据 的 源 、 被 数据 清理 或 集成 处 理 添加 的 
缺失 字段 等 。 

元 数据 库 应 当 包 括 以 下 内 容 : 

© 数据 仓库 结构 的 描述 ， 包 括 仓库 模式 、 视 图 、 维 、 分 层 结 构 、 导 出 数据 的 定义 ， 以 

及 数据 集 市 的 位 置 和 内 容 。 

。 操作 元 数据 ， 包 括 数据 血统 (迁移 数据 的 历史 和 它 所 使 用 的 变换 序列 ) 、 数 据 流通 (E 
动 的 、 档 案 的 或 净化 的 ) 和 管理 信息 (仓库 使 用 的 统计 量 、 错 误 报告 和 审计 跟踪 ) 。 

e 用 于 汇总 的 算法 ， 包 括 度量 和 维 定义 算法 ， 数 据 所 处 的 粒度 、 划 分 、 主 题 领域 、 聚 
集 、 汇 总 、 预 定义 的 查询 和 报告 。 

。 由 操作 环境 到 数据 仓库 的 映射 ， 包括 源 数据 库 和 它们 的 内 容 ， 信 关 描 述 ， 数 据 划分 ， 
数据 提取 、 清 理 、 转 换 规则 和 默认 值 ， 数 据 刷新 和 净化 规划， 以 及 安全 性 (用户 授 
权 和 存 取 控制 ) 。 

。 关于 系统 性 能 的 数据 ， 除 刷新 、 更 新 和 复制 周期 的 定时 和 调度 的 规则 外 ， 还 包括 改 
善 数据 存 取 和 检索 性 能 的 索引 和 概要 。 

。 商务 元 数据 ， 包 括 商务 术语 和 定义 ， 数 据 拥 有 者 信息 和 收费 策略 。 

数据 仓库 包含 不 同 的 汇总 层 ， 元 数据 是 其 中 一 种 类 型 。 其 他 类 型 包括 当前 的 细节 数据 
(几乎 总 是 在 磁盘 上 ) 、 老 的 细节 数据 (通常 在 三 级 存储 器 上 ) 、 稍 加 汇总 的 数据 和 高 度 汇 总 
的 数据 〈 可 以 ， 也 可 以 不 物理 地 存 人 仓库 ) 。 

与 数据 仓库 中 的 其 他 数据 相 比 ， 元 数据 扮演 很 不 相同 的 角色 ， 并 且 由 于 种 种 原因 ， 它 也 
古 重 要 的 角色 。 例 如 ， 元 数据 用 作 目 录 ， 帮 助 决 策 支 持 系统 分 析 者 对 数据 仓库 的 内 容 定位 ; 
当 数 据 由 操作 环境 到 数据 仓库 环境 转换 时 ， 作 为 数据 映射 的 指南 ; 对 于 汇总 的 算法 将 当前 细 
节 数 据 汇总 成 稍 加 综合 的 数据 ， 或 将 稍 加 综合 的 数据 汇总 成 高 度 综合 的 数据 ， 它 也 是 指南 。 
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元 数据 应 当 持久 存放 和 管理 〈 即 存放 在 磁盘 上 ) o 


4.2 数据 仓库 建 模 : 数据 立方 体 与 OLAP 

数据 仓库 和 OLAP 工具 基于 多 维 数据 模型 。 这 种 模型 将 数据 看 做 数据 立方 体形 式 。 本 
节 ， 你 将 学 习 如 何 用 数据 立方 体 对 维 数据 建 模 (4.2. 1 节 )。4. 2. 2 节 给 出 各 种 多 维 模型 : 
星 形 模式 、 雪 花 模式 和 事实 星座 。 你 还 将 学 习 概念 分 层 (4. 2.3 节 ) 和 度量 (4.2.4 节 )， 
以 及 如 何在 基本 OLAP 操作 中 使 用 它们 ， 在 多 个 抽象 层 上 进行 交互 式 挖 据 。 典 型 的 OLAP 操 
作 ， 如 下 外 和 上 卷 ， 在 4.2.5 节 解 释 。 最 后 ,提供 查询 多 维 数据 库 的 星 网 模型 (4. 2.6 节 )。 


4.2.1 数据 立方 体 ， 一 种 多 维 数据 模型 

“什么 是 数据 立方 体 ?”” 数 据 立方 体 (data cube) 允许 以 多 维 对 数据 建 模 和 观察 。 它 由 
维和 事实 定义 。 

一 般 而 言 ， 维 是 一 个 单位 想 要 记录 的 透视 或 实体 。 例 如 ，AllElectronics 可 能 创建 一 个 数 
EOE sales ， 记 录 商 店 的 销售 ， 涉 及 维 time, item, branch 和 location。 这 些 维 使 得 商店 能 够 
记录 商品 的 月 销售 ， 销 售 商品 的 分 店 和 地 点 。 每 个 维 都 可 以 有 一 个 与 之 相关 联 的 表 。 该 表 称 
为 维 表 ， 它 进一步 描述 维 。 例 如 ，item 的 维 表 可 以 包含 属性 item_name, brand 和 type, AER 
可 以 由 用 户 或 专家 设 定 ， 或 者 根据 数据 分 布 自动 产生 和 调整 。 

通常 ， 多 维 数据 模型 围绕 诸如 销售 这 样 的 中 心 主题 组 织 。 主 题 用 事实 表 表示 。 事 实 是 数 
值 度量 的 。 把 它们 看 做 数量 ， 是 因为 我 们 想 根据 它们 分 析 维 之 间 的 联系 。 例 如 ， 数 据 仓库 
sales 的 事实 包括 dollars_sold( 销售 额 ) 、units_sold( 销售 量 ) 和 amount_budgeted( 预算 额 )。 事 
实 表 包 括 事 实 的 名 称 或 度量 ， 以 及 每 个 相关 维 表 的 码 。 当 我 们 稍 后 考察 多 维 模 式 时 ， 你 很 快 
就 会 明白 这 一 切 是 如 何 运作 的 。 

尽管 我 们 经 常 把 数据 立方 体 看 作 3-D 几何 结构 ， 但 是 在 数据 仓库 中 ， 数 据 立 方 体 是 nn 维 
的 。 为 了 更 好 地 理解 数据 立方 体 和 多 维 数 据 模型 ， 我 们 从 考察 2-D 数据 立方 体 开始 。 事 实 
上 ， 它 是 AllElectronics 的 销售 数据 表 或 电子 数据 表 。 特 别 地 ， 我 们 将 观察 AllElectronics 的 销 
售 数据 中 温哥华 每 季度 销售 的 商品 ; 这 些 数据 显示 在 表 4. 2 中 。 在 这 个 2-D 表示 中 ,温哥华 
的 销售 按 time 4E 〈 按 季度 组 织 ) 和 iem 维 〈 按 所 售 商品 的 类 型 组 织 ) 显示 。 所 显示 的 事实 
或 度量 是 dollars_sold( 单 位: 1000 美元 ) 。 


表 4.2 AllElectronics 的 销售 数据 的 time 和 item #4) 2-D 视图 


location = “温哥华 ” 

















time (季度 ) žem (RE) 

家 庭 娱 和 计算 机 电话 安全 
QI 605 825 14 400 
Q2 680 952 31 512 
Q3 812 1023 30 501 
Q 927 1038 38 580 





注 : 销售 教 据 取 自 坐落 在 温哥华 的 所 有 分 店 ， 所 显示 的 度量 是 dollars_sold( 单位 : 1000 美元 ) 。 


现在 ， 假 定 我 们 想 从 三 维 角 度 观察 销售 数据 。 例 如 ， 我 们 想 根据 time, item 和 location 
观察 数据 。location 是 城市 芝加哥 、 纽 约 、 多 伦 多 和 温哥华 。3-D 数据 如 表 4.3 所 示 。 该 3-D 
数据 表 以 2-D 数据 表 的 序列 的 形式 表示 。 从 概念 上 讲 ， 我 们 也 可 以 用 3-D 数据 立方 体 的 形式 
表示 这 些 数 据 ， 如 图 4. 3 所 示 。 
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表 4.3 AllElectronics 销售 数据 的 time. item 和 location 维 的 3-D 视图 











location = “芝加哥 ” location = “纽约 ” location = “ZEZ” location = “温哥华 ” 
item item item item 
“me 家 庭 计算 家 庭 计算 
家 庭 计算 ，、 . KE 计算 ，、 庭 了 . i 、 
É 安全 电话 ”安全 
娱乐 机 电话 安全 娱乐 机 电话 安全 娱乐 机 电话 娱乐 机 
ol 854 882 89 623 1087 968 38 872 819 746 43 591 605 825 14 400 
Q2 943 890 64 698 1130 1024 41 925 894 769 52 682 680 952 31 512 
Q3 |1032 924 59 789 1034 1048 45 1002 940 795 58 728 812 1023 30 501 
Q4 11129 992 63 870 1142 1091 54 984 978 864 59 784 927 1038 38 580 


注 : 所 显示 的 度量 是 dollars_sold( 单位 : 1000 美元 ) 


time ( 季度 ) 





电话 


item ( 类 型 ) 





图 4.3 表 4.3 数据 的 3-D 数据 立方 体 表 示 ， 维 是 time, item 和 location, fit it 
示 的 度量 为 doliars_sold( 单 位 : 1000 美元 ) 

现在 ， 假 设 我 们 想 从 四 维 角度 观察 销售 数据 ， 增 加 一 个 维 ， 如 supplier。 观 察 4-D 事物 
变 得 有 点 麻烦 。 然 而 ， 我 们 可 以 把 4-D 立方 体 看 成 3-D 立方 体 的 序列 ， 如 图 4 4 所 示 。 如 果 
我 们 按 这 种 方法 继续 下 去 ， 则 我 们 可 以 把 任意 维 数据 立方 体 显示 成 (n -1) 维 “ 立 方 体 ” 
的 序列 。 数 据 立方 体 是 对 多 维 数据 存储 的 一 种 比喻 ， 这 种 数据 的 实际 物理 存储 可 以 不 同 于 它 
的 逻辑 表示 。 重 要 的 是 ， 数 据 立方 体 是 nn 维 的 ， 而 不 限于 3-D。 





娱乐 
item ( 类 型 } 


supplier=“SUP2” 


娱乐 
item ( 类 型 ) 


娱乐 
item ( 类 型 ) 


图 4.4 销售 数据 的 4-D 数据 立方 体 表 示 ， 维 是 time, item, location 和 supplier, PH IR 
的 度量 为 dollars_sold( 单位 ，1000 美元 )。 为 了 改善 可 读 性 ， 只 显示 了 部 分 值 


supplier="SUP3” 
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表 4. 2 和 表 4. 3 显示 不 同 汇总 级 的 数据 。 在 数据 仓库 文献 中 ， 图 4. 3 和 图 4.4 所 示 的 
数据 立方 体 称 做 方 体 〈cuboid) 。 给 定 维 的 集合 ， 我 们 可 以 对 给 定 诸 维 的 每 个 可 能 的 子 集 
产生 一 个 方 体 。 结 果 形 成 方 体 的 格 ， 每 个 方 体 在 不 同 的 汇总 级 显示 group by 数据 。 方 体 的 
格 称 做 数据 立方 体 。 图 4.5 显示 形成 维 time, item, location 和 supplier 的 数据 立方 体 的 方 
体格 。 

all 0-D (MA) Wh 







1-D7 4k 
D location, 2-D 方 体 
supplier 

3-D 方 体 

time, item, supplier item, location, 

Supplier 
O 

time, item, location, supplier 4-D (基本 ) 方 体 


图 4.5 方 体 的 格 ， 形 成 time. item, location 和 supplier 维 的 4-D 数据 立方 体 。 每 个 方 
体 代 表 一 个 不 同 程度 的 汇总 


存放 最 低层 汇总 的 方 体 称 做 基本 方 体 (base cuboid) 。 例 如 ， 图 4.4 中 的 4-D 方 体 是 给 
定 维 time, item, location 和 supplier 的 基本 方 体 。 图 4.3 是 time. item 和 location 的 〈 非 基本 
的 ) 3-D 方 体 ， 对 所 有 的 供应 商 汇总 。0-D 方 体 存放 最 高 层 的 汇总 ， 称 做 顶点 方 体 (apex 
cuboid) 。 在 我 们 的 例子 中 ， 这 是 总 销售 dollars_sold 在 所 有 四 个 维 上 的 汇总 。 顶 点 方 体 通常 
用 alll 标记 。 


4.2.2 星 形 、 雪 花形 和 事实 星座 ， 多 维 数据 模型 的 模式 


实体 -联系 数据 模型 广泛 用 于 关系 数据 库 设计 。 在 那里 ， 数 据 库 模式 用 实体 集 和 它们 之 
间 的 联系 表示 。 这 种 数据 模型 适用 于 联机 事务 处 理 。 然 而 ,数据 仓库 需要 简明 的 、 面 向 主题 
的 模式 ， 便 于 联机 数据 分 析 。 

最 流行 的 数据 仓库 的 数据 模型 是 多 维 数据 模型 。 这 种 模型 可 以 是 星 形 模式 、 雪 花 模 式 或 
事实 星座 模式 。 下 面 我 们 考察 这 些 模式 。 

星 形 模式 (star schema): 最 常见 的 模型 范 型 是 星 形 模式 ， 其 中 数据 仓库 包括 (1) 一 个 
大 的 中 心 表 (事实 表 ) ， 它 包含 大 批 数据 并 且 不 含 宛 余 ; (2) 一 组 小 的 附属 表 (BR), 
维 一 个 。 这 种 模式 图 很 像 星 光 四 射 ， 维 表 显 示 在 围绕 中 心 表 的 射线 上 。 

例 4.1 星 形 模式 。AllFlectronics 销售 的 星 形 模式 显示 在 图 4.6 中 。 从 四 个 维 time, 
item, branch 和 location 考虑 销售 。 该 模式 包含 一 个 中 心事 实 表 sales ， 它 包含 四 个 维 的 码 和 两 
个 度量 dollars_sold 和 uniss_sold。 为 尽量 减 小 事实 表 的 大 小 ， 维 标识 符 (如 time_key 和 item_ 
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事实 表 维 表 
dollars_sold 
location 







location_key 
Street 
city 
province _or_state 




















branch_type 












图 4.6 sales 数据 仓库 的 星 形 模式 


注意 ， 在 星 形 模式 中 ， 每 维 只 用 一 个 表 表 示 ， 而 每 个 表 包 含 一 组 属性 。 例 如 ， 维 表 lo- 
cation 包含 属性 集 |location_key, street, city, province_or_state, country} 。 这 种 限制 可 能 造成 
某 些 元 余 。 例 如 , “Urbana” 和 “Chicago” 都 是 美国 伊利 诺 斯 州 的 城市 。 维 表 location 中 这 
些 城市 实体 的 属性 province_or_state, country 中 会 有 完 余 ， 即 (ee, Urbana, IL, USA) 和 
(…，Chicago，IL，USA)。 此 外 ， 一 个 维 表 中 的 属性 可 能 形成 一 个 层次 (全 序 ) BOA 
序 ) 。 

雪花 模式 (snowflake schema): 雪花 模式 是 星 形 模式 的 变种 ， 其 中 某 些 维 表 被 规范 化 ， 
因而 把 数据 进一步 分 解 到 附加 的 表 中 。 结 果 模 式 图 形成 类 似 于 雪花 的 形状 。 

雪人 花 模式 和 星 形 模式 的 主要 不 同 在 于 ， 雪 花 模 式 的 维 表 可 能 是 规范 化 形式 ， 以 便 减 少 宛 
余 。 这 种 表 易于 维护 ， 并 节省 存储 空间 。 然 而 ， 与 典型 的 巨大 事实 表 相 比 ， 这 种 空间 的 节省 
可 以 忽略 。 此 外 ， 由 于 执行 查询 需要 更 多 的 连接 操作 ,雪花 结构 可 能 降低 浏览 的 效率 。 因 
此 ， 系 统 的 性 能 可 能 相对 受到 影响 。 因 此 ， 尽 管 雪花 模式 减少 了 宛 余 ， 但 是 在 数据 仓库 设计 
中 ， 雪 花 模 式 不 如 星 形 模式 流行 。 

例 4.2 雪花 模式 。AllElectronics 的 sales 的 雪花 模式 在 图 4.7 给 出 。 这 里 ， 事 实 表 sales 
与 图 4. 6 所 示 的 星 形 模式 相同 。 两 个 模式 的 主要 差别 是 维 表 。 星 形 模式 中 item 的 单个 维 表 在 
雪花 模式 中 被 规范 化 ， 导 致 新 的 item 表 和 supplier 表 。 例 如 ， 现 在 维 表 item 包含 属性 item_ 
key, item_name, brand, type 和 supplier_key， 其 中 supplier_hey 连接 到 包含 supplier_key 和 sup- 
plier_type 信息 的 维 表 supplier。 类 似 地 ， 星 形 模式 中 单个 维 表 location 也 被 规范 化 成 两 个 新 
表 : location 和 city。 现 在 ， 新 的 location 表 中 的 city_key 连接 到 city 维 。 注 意 ， 4.7 所 示 的 
雪花 模式 中 的 province_or_state 和 country 还 可 以 进一步 规范 化 。 | 

事实 星座 (fact constellation): 复杂 的 应 用 可 能 需要 多 个 事实 表 共 享 维 表 。 这 种 模式 可 
以 看 做 星 形 模式 的 汇集 ， 因 此 称 做 星系 模式 (galaxy schema) 或 事实 星座 。 
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time sales item supplier 


维 表 事实 表 维 表 维 表 
item_name 
brand 


type 
supplier_key 

























time_key 
item_key 
branch_key 

location key 
dollars_sald 
units_sold 


time_key 
day 
day_of week 































quarter 








branch location 
HE BER 
ciy 
ER 













branch_type 





province_or_state 








country 





图 4.7 sales 数据 仓库 的 雪花 模式 


例 4.3 事实 星座 。 一 个 事实 星座 模式 的 例子 显示 在 图 4.8 中 。 该 模式 说 明了 两 个 事实 
表 ，sales 和 shipping。sales 表 的 定义 与 星 形 模式 (图 4. 6) 相同 。shipping 表 有 五 个 维 或 
45 item_key, time_key, shipper_key, from_location 和 to_location , 两 个 度量 一 一 dollars_cost 
和 uniss_shipped。 事 实 是 座 模式 允许 事实 表 共 享 维 表 。 例 如 ， 事 实 表 sales 和 shipping 共享 维 


K time, item 和 location, E 




















Shipping shipper 
维 维 表 
shipper_name 
location_key 
shipper_type 















time_key 
item_key 
branch_key 

location_key 
dollars sold 
units sold 















time_key 


shipper _key 
from location 


units_shipped 




































branch_type 






Province_or state 
country 


图 4.8 sales 和 shipping 数据 仓库 的 事实 星座 模式 


在 建立 数据 仓库 时 ， 数 据 仓库 和 数据 集 市 之 间 是 有 区 别 的 。 数 据 仓库 收集 了 关于 整个 组 
织 的 主题 (如 顾客 、 商 品 、 销 售 、 资 产 和 员工 ) 信息 ， 因 此 是 企业 范围 的 。 对 于 数据 仓库 ， 
通常 使 用 事实 星座 模式 ， 因 为 它 能 对 多 个 相关 的 主题 建 模 。 另 一 方面 ， 数 据 集 市 (data 
mart) 是 数据 仓库 的 一 个 部 门 子 集 ， 它 针对 选 定 的 主题 ， 因 此 是 部 门 范 围 的 。 对 于 数据 集 
市 ， 流 行 采用 星 形 或 雪花 模式 ， 因 为 它们 都 适合 对 单个 主题 建 模 ， 尽 管 星 形 模式 更 流行 、 更 
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有 效 。 


4.2.3 4: 概念 分 层 的 作用 

概念 分 层 (concept hierarchy) 定义 一 个 上 映射 序列 ， 将 低层 概念 集 上 映射 到 较 高 层 、 更 一 
般 的 概念 。 考 虑 维 location 的 概念 分 层 。location 的 城市 值 包括 温哥华 、 多 伦 多 、 纽 约 和 芝 加 
哥 。 然 而 ， 每 个 城市 可 以 映射 到 它 所 属 的 省 或 州 。 例 如 ， 温 哥 华 可 以 映射 到 不 列 颠 哥伦比亚 
省 ， 而 芝加哥 映射 到 伊利 诺 斯 州 。 这 些 省 和 州 依次 可 以 映射 到 它 所 属 的 国家 ， 如 加 拿 大 或 美 
国 。 这 些 映射 形成 维 location 的 概念 分 层 ， 将 低层 概念 即 城市 ) 映射 到 更 一 般 的 较 高 层 概 
念 ( 即 国家 ) 。 上 面 介绍 的 概念 分 层 如 图 4.9 所 示 。 


location 


all 


country 


or_state 





图 4.9 维 location 的 一 个 概念 分 层 。 由 于 版 面 限制 ， 并 非 所 有 结 点 都 在 图 中 显示 (在 结 点 之 


间 用 “…” 指 出 ) 
许多 概念 分 层 隐 含 在 数据 库 模式 中 。 例 如 ， 假 定 维 location 由 属性 number, street, city, 
province_or _state. zip _code 和 country 描述 。 country year 


这 些 属 性 按 一 个 全 序 相关 ， 形 成 一 个 概念 分 
FA, WM “street < city < province_or_state < coun- 
try” o 该 层 次 显 示 在 图 4. 10a 中 o 维 的 属 性 province_or_state quarter 
也 可 以 组 织 成 偏 序 ， 形 成 一 个 格 。 例 如 ， 维 
time 基于 属性 day, week, month, quarter 和 


year 就 是 一 个 偏 序 “day < | month < quarter, “wy month week 
week} <year”?, X78 ERY Eh ACE 4. 10b 

中 。 形成 数据 库 模 式 中 属性 的 全 序 或 偏 序 的 street day 
概念 分 层 称 做 模式 分 层 (schema hierarchy) 。 a) b) 


许多 应 用 共有 的 概念 分 层 ， 如 time 的 概念 分 
层 ， 可 以 在 数据 按 据 系统 中 预先 定义 。 数 据 ATO 数据 全 库 维 中 属 住 的 层次 结构 和 格 结构 
挖 所 系统 应 当 为 用 户 提供 灵活 性 ， 人 允许 用 户 


根据 他 们 的 特殊 需要 剪裁 预定 义 的 分 层 。 例 如 ， 用 户 可 能 想 定 义 财政 年 从 4 月 1 日 开始 ， 而 





O MFH (week) WEBA 《month)， 通 常 不 把 它 视 为 月 的 低层 抽象 。 然 而 ， 常 常 把 它 视 为 年 (year) 的 低层 抽 
象 ， 因 为 一 年 大 约 包含 52 周 。 
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学 年 从 9 月 1 日 开始 。 

也 可 以 通过 将 给 定 维 或 属性 的 值 离散 化 或 分 组 来 定义 概念 分 层 ， 产 生 集合 分 组 分 层 
( set-grouping hierarchy) 。 可 以 在 值 的 组 之 间 定义 全 序 或 偏 序 。 集 合 分 组 概念 分 层 的 一 个 例子 
是 如 图 4. 11 所 示 的 关于 维 price 的 集合 分 组 概念 分 层 。 其 中 ， 区 间 ($X $Y] RAM $X 
(不 包括 ) 到 $Y( 包 括 ) 的 区 间 。 














($200... $400] } ($400... $600]) ($800... $1000] 
) ($500... 
1 $600] 


($0 ... ($200... ($800... 
$100] f | $300] HT $900] | 
图 4.11 price 的 概念 分 层 


对 于 一 个 给 定 的 属性 或 维 ， 按 照 不 同 的 用 户 观点 ， 可 能 有 多 个 概念 分 层 。 例 如 ， 用 户 可 
能 愿意 为 inexpensive (便宜 ) . moderately_priced (适中 ) 和 expensive (昂贵 ) 定义 区 间 来 组 
织 price。 

概念 分 层 可 以 由 系统 用 户 、 领 域 专家 、 知 识 工程 师 人 工地 提供 ， 或 根据 数据 分 布 的 统计 
分 析 自 动 地 产生 。 概 念 分 层 的 自动 产生 作为 数据 挖掘 准备 的 预 处 理 步骤 已 在 第 3 章 讨 论 。 

正如 我 们 将 在 4. 2. 4 节 看 到 的 ， 概 念 分 层 允 许 我 们 在 各 种 抽象 层 处 理 数据 。 


4.2.4 度量 的 分 类 和 计算 


“如 何 计 算 度量 ?” 为 回答 这 个 问题 ， 我 们 首先 研究 如 何 对 度量 分 类 。 注 意 ， 数 据 立方 
体 空间 的 多 维 点 可 以 用 维 -ERRARE PMN, (time = “Q1”, location = “ 温 哥 
TE”, item= “计算 机 ”) 。 数 据 立 方 体 度量 (measure) 是 一 个 数值 函数 ， 该 函数 可 以 对 数据 
立方 体 空间 的 每 个 点 求 值 。 通 过 对 给 定点 的 各 维 - 值 对 聚集 数据 ， 计 算 该 点 的 度量 值 。 稍 
后 ， 我 们 看 一 些 具体 的 例子 。 

度量 根据 其 所 用 的 聚集 函数 可 以 分 成 三 类 : 分 布 的、 代数 的 和 整体 的 。 

分 布 的 〈distributive) : 一 个 聚集 函数 如 果 能 用 如 下 分 布 方 式 进行 计算 ， 则 它 是 分 布 的 。 
假设 数据 被 划分 为 n 个 集合 ， 将 函数 用 于 每 一 部 分 ， 得 到 个 聚集 值 。 如 果 将 函数 用 于 nt 个 
育 集 值得 到 的 结果 与 将 函数 用 于 整个 数据 集 (不 划分 ) 得 到 的 结果 一 样 ， 则 该 函数 可 以 用 
分 布 方式 计算 。 例 如 ， 对 于 数据 立方 体 ，sum() 可 以 分 布 计算 : 首先 将 数据 立方 体 划 分 成 子 
立方 体 的 集合 ， 对 每 个 子 立方 体 计 算 sum () ， 然 后 对 这 些 子 立方 体 得 到 的 值 求 和 。 因 此 ， 
sum () 是 分 布 聚集 函数 。 

同 理 ，count () min() 和 max () 也 是 分 布 聚集 函数 。 把 每 个 非 空 基 本 单元 的 计数 值 看 
作 1， 立 方 体 中 任何 单元 的 count() 都 可 以 看 做 其 子 立 方 体 中 所 有 对 应 的 子女 单元 的 计数 值 之 
和 。 因 此 ，count () 是 分 布 的 。 一 个 度量 如 果 可 以 用 分 布 聚集 函数 得 到 ， 则 它 是 分 布 的 。 由 
于 计算 可 以 被 划分 ， 因 而 分 布 度量 可 以 有 效 地 计算 。 

代数 的 (algebraic) : 一 个 聚集 函数 如 果 能 够 用 一 个 具有 MM 个 参数 的 代数 函数 计算 (其 
中 歼 是 有 界 正 整数 ) ， 而 每 个 参数 都 可 以 用 一 个 分 布 聚 集 函 数 求 得 ， 则 它 是 代数 的 。 例 如 ， 
avg() (平均 值 ) 可 以 用 sum() /count () 计算 ， 其 中 sum() 和 count () 都 是 分 布 聚集 函 
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数 。 类 似 地 ， 可 以 证 明 min_N () max N() (在 给 定 的 集合 中 分 别 找到 N 个 最 小 和 最 大 值 ) 
和 standard_deviation() 都 是 代数 聚集 函数 。 一 个 度量 如 果 可 以 用 代数 聚集 函数 得 到 ， 
则 它 是 代数 的 。 

HERAT (holistic): 一 个 聚集 函数 如 果 描 述 它 的 子 聚 集 所 需 的 存储 没有 一 个 常数 界 ， 则 
它 是 整体 的 。 也 就 是 说 ， 不 存在 一 个 具有 M 个 参数 的 代数 函数 进行 这 一 计算 (其 中 M 是 常 
数 )。 整 体 函数 的 常见 例子 包括 median () mode () 和 rank () 。 一 个 度量 如 果 是 由 整体 聚 
集 函 数 得 到 的 ， 则 它 是 整体 的 。 

大 部 分 数据 立方 体 应 用 需要 有 效 地 计算 分 布 的 和 代数 的 度量 ， 对 此 存在 许多 有 效 的 技 
术 。 相 比 之 下 ， 有 效 地 计算 整体 度量 是 比较 困难 的 。 然 而 ， 对 于 某 些 整体 函数 的 近似 计算 ， 
有 效 的 技术 是 存在 的 。 例 如 ， 第 2 章 的 〈2.3) 式 可 以 估计 大 型 数据 集中 位 数 的 近似 值 ， 而 
不 是 精确 地 计算 median () 。 在 许多 情况 下 ， 这 些 技术 足以 克服 有 效 计 算 整 体 函 数 的 困难 。 

在 构造 数据 立方 体 时 计算 不 同 度量 的 各 种 方法 在 第 5 章 深 和 讨论。 注意， 当前 ， 数 据 立 
方 体 技术 大 多 限制 多 维 数据 库 的 度量 为 数值 数据 。 然 而 ， 度 量 也 可 以 用 于 其 他 类 型 的 数据 ， 
如 空间 、 多 媒体 或 文本 数据 。 


4.2.5 典型 的 OLAP 操作 

“在 OLAP 中 ， 如 何 使 用 概念 分 层 ?” 在 多 维 数据 模型 中 ， 数 据 组 织 在 多 维 空间 ， 每 维 包 
含 由 概念 分 层 定义 的 多 个 抽象 层 。 这 种 组 织 为 用 户 从 不 同 角度 观察 数据 提供 了 灵活 性 。 有 一 
些 OLAP 数据 立方 体操 作用 来 物化 这 些 不 同 视图 ， 人 允许 交互 查询 和 分 析 手 头 数据 。 因此 ， 
OLAP 为 交互 数据 分 析 提 供 了 友好 的 环境 。 

例 4.4 OLAP 操作 。 我 们 看 看 一 些 典型 的 多 维 数据 的 OLAP 操作 。 所 介绍 的 每 种 操作 
都 在 图 4. 12 中 表示 。 图 的 中 心 是 AllElectronics 的 sales 数据 立方 体 。 该 数据 立方 体 包 含 维 lo- 
cation, time 和 item， 其 中 location 按 城市 值 聚集 ，time EERE, Mj item 按 商品 类 型 聚 
集 。 为 便于 解释 ， 我 们 称 该 数据 立方 体 为 中 心 立 方 体 。 所 显示 的 度量 是 dollars_sold( 单位: 
1000 美元 ) 。 (为 了 提高 可 读 性 ， 只 显示 某 些 方 体 单元 的 值 。) 所 考察 的 数据 是 芝加哥 、 纽 
约 、 多 伦 多 和 温哥华 的 数据 。 

E (roll-up); 上 卷 操作 (有 些 人 称 之 为 上 钼 (dril-up) 操作 ) 通过 沿 一 个 维 的 概念 
分 层 向 上 攀升 或 者 通过 维 归 约 在 数据 立方 体 上 进行 聚集 。 图 4. 12 显示 了 在 图 4. 9 中 给 出 的 
HE location 的 概念 分 层 向 上 攀升 ， 在 中 心 立方 体 执行 上 卷 操作 的 结果 。 该 分 层 被 定义 为 全 序 
“street < city < province_or_state < country”。 所 展示 的 上 卷 操作 沿 location 的 分 层 ， 由 city 层 向 
上 到 country 层 聚 集 数据 。 换 名 话说， 结果 立方 体 按 country 而 不 是 city 对 数据 分 组 。 

当 用 维 归 约 进行 上 卷 时 ， 一 个 或 多 个 维 从 给 定 的 立方 体 中 删除 。 例如 ， 考 虑 只 包含 两 个 
HE location 和 time 的 数据 立方 体 sales。 上 卷 可 以 删除 time 维 ， 导 致 整个 销售 按 地 点 而 不 是 地 
Ha AAT [iB] BE 

Bh (drill-down); 下 销 是 上 卷 的 逆 操 作 ， 它 由 不 太 详 细 的 数据 到 更 详细 的 数据 。 下 销 
可 以 通过 活 维 的 概念 分 层 向 下 或 引入 附加 的 维 来 实现 。 图 4. 12 显示 沿 着 “day < month < 
quarter < year” 定 义 的 time 维 的 概念 分 层 向 下 ， 在 中 心 立 方 体 执行 下 销 操 作 的 结果 。 这 里 ， 
下 钻 由 time 维 的 分 层 结构 向 下 ， 从 quarter 层 到 更 详细 的 month 层 。 结果 数据 立方 体 详 细 地 
列 出 每 月 的 总 销售 ， 而 不 是 按 季度 汇总 。 

由 于 下 钻 操 作对 给 定数 据 添加 更 多 细节 ， 它 也 可 以 通过 添加 新 的 维 到 立方 体 来 实现 。 例 
如 ， 可 以 通过 引入 一 个 附加 的 维 ， 如 customer_group， 在 图 4.12 的 中 心 立方 体 上 执行 下 销 操 作 。 
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4.12 ”多 维 数 据 上 的 典型 OLAP 操作 的 例子 


切片 和 切 块 : WH (slice) 操作 在 给 定 的 立方 体 的 一 个 维 上 进行 选择 ， 导 致 一 个 子 立 方 
体 。 图 4. 12 表示 了 一 个 切片 操作 ， 它 对 中 心 立方 体 使 用 条 件 time = “Q1” 对 维 time 选择 销 
GE. WR (dice) 操作 通过 在 两 个 或 多 个 维 上 进行 选择 ， 定 义 子 立方 体 。 图 4. 12 表示 
了 一 个 切 块 操 作 ， 它 涉及 三 个 维 ， 根 据 如 下 条 件 对 中 心 立方 体 切 块 : (location = “Toronto” 
or “Vancouver” ) and (time= “Q1” or “Q2”) and (item =“ 家 庭 娱 乐 ”or“ 计 算 机 ”) 。 

转轴 (pivot): 转轴 (又 称 旋转 (rotate) ) 是 一 种 目 视 操作 ， 它 转动 数据 的 视角 ， 提 供 
数据 的 替代 表示 。 图 4. 12 显示 了 一 个 转轴 操作 ， 其 中 item 和 location 轴 在 一 个 2-D 切片 上 转 
动 。 其 他 例子 包括 转动 3-D 数据 立方 体 ， 或 将 一 个 3-D 立方 变换 成 2-D 平面 序列 。 

其 他 OLAP 操作 : 有 些 OLAP 系统 还 提供 其 他 钻 取 操 作 。 例 如 ， 钻 过 (drill-across) $A 
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行 涉及 多 个 事实 表 的 查询 。 销 透 (dril-throueh) 操作 使 用 关系 SQL A, HABIBI 
体 的 底层 ， 到 后 端 关系 表 。 

其 他 OLAP 操作 可 能 包括 列 出 表 中 最 高 或 最 低 的 项， 以 及 计算 移动 平均 值 、 增 长 率 、 
利润 、 内 部 返回 率 、 贬 值 、 流 通 转换 和 统计 功能 。 = 

OLAP 提供 了 分 析 建 模 机 制 ， 包 括 推导 比率 、 方 差 等 以 及 计算 多 个 维 上 度量 的 计算 引 
掌 。 它 能 在 每 一 粒度 和 所 有 维 的 交 上 产生 汇总 、 聚 集 和 分 层 。OLAP 也 支持 预测 、 趋 势 分 析 
和 统计 分 析 函 数 模型 。 在 这 种 意义 下 ，OLAP 引擎 是 一 种 强 有 力 的 数据 分 析 工 具 。 

OLAP 系统 与 统计 数据 库 

OLAP 的 许多 特征 〈 例 如 ， 使 用 多 维 数据 模型 和 概念 分 层 ， 与 维 关 联 的 度量 ， 上 卷 和 下 
销 概念 ) 也 存在 于 统计 数据 库 (SDB) 的 早期 工作 中 。 统 计数 据 库 是 一 种 用 于 支持 统计 应 
用 的 数据 库 系统 。 这 两 种 类 型 的 系统 之 间 的 相似 性 很 少 有 人 讨论 ， 主 要 是 由 于 它们 使 用 了 不 
同 的 术语 ， 并 有 不 同 的 应 用 领域 。 

然而 ，OLAP 和 SDB 也 有 显著 的 差别 。SDB 趋向 于 关注 社会 经 济 应 用 ， 而 OLAP 旨 在 商务 应 
用 。 概 念 分 层 的 私有 性 问题 是 SDB 关注 的 主要 问题 。 例 如 ， 给 定 汇总 的 社会 经 济 数据 ， 对 于 允许 
用 户 观察 对 应 的 低层 数据 是 有 争议 的 。 最 后 ， 与 SDB 不 同 ，OLAP 需要 有 效 地 处 理 海量 数据 。 


4.2.6 查询 多 维 数据 库 的 星 网 查询 模型 


多 维 数据 库 查询 可 以 基于 星 网 模型 〈starnet model) 。 星 网 模型 由 从 中 心 点 发 出 的 射线 组 
成 ， 其 中 每 一 条 射线 代表 一 个 维 的 概念 分 层 。 概 念 分 层 上 的 每 个 “抽象 级 ” 称 为 一 个 足迹 
(footprint), ， 代 表 诸 如 上 卷 、 下 钻 等 OLAP 操作 可 用 的 粒度 。 

例 4.5 星 网 。AllElectronics 数据 仓库 的 一 个 星 网 查询 模型 显示 在 图 4. 13 中 ,。 该 星 网 由 四 
条 射线 组 成 ， 分 别 代 表 维 location, customer, item Fi time 的 概念 分 层 。 每 条 线 由 一 些 足迹 组 成 ， 
代表 该 维 的 抽象 级 。 例 如 ，time 线 有 4 个 足迹 : “day”、“mont”、“guarter” 和 “year"。 一 个 
概念 分 层 可 以 涉及 单个 属性 (1 time 分 层 中 的 date), RETRE 〈 例如， 概念 分 层 location 
涉及 属性 street, city, province_or_state 和 couniry) 。 为 了 考察 AllElectronics 的 商品 销售 ， 用 户 可 
以 沿 着 time 维 上 卷 ， 由 month 到 quarter, WAZ location FE, H country 到 city, 


location 
customer 









continent 
group 
country 


province_or_state 





name brand category type 


图 4.13 商务 查询 星 网 模型 
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通过 用 较 高 层 抽象 (如 time 维 的 “year”) 值 替 换 低层 抽象 (如 time 维 的 “day”) 值 ， 
概念 分 层 可 以 用 于 泛 化 (generalize) 数据 。 通 过 用 低层 抽象 值 替换 高 层 抽 象 值 ， 概 念 分 层 
也 可 以 特殊 化 (specialize〉 数据 。 = 


4. 3 数据 仓库 的 设计 与 使 用 

“如 何 设计 数据 仓库 ? 如 何 使 用 数据 仓库 ? 数据 仓库 和 OLAP 与 数据 挖 据 有 何 联系 ?” 本 
节 讨 论 这 些 问题 。 我 们 研究 用 于 信息 处 理 、 分 析 处 理 和 数据 挖掘 的 数据 仓库 设计 。 我 们 从 介 
绍 数据 仓库 设计 的 商务 分 析 框 架 开始 〈4. 3. 1 节 ) 。4. 3. 2 节 考察 设计 过 程 ， 而 4. 3. 3 节 研 究 
数据 仓库 的 使 用 。 最 后 ，4. 3. 4 节 介绍 多 维 数 据 挖 振 一 一 一 种 强 有 力 的 集成 OLAP 与 数据 控 
掘 技术 的 范 型 。 


4.3.1 数据 仓库 的 设计 的 商务 分 析 框 架 


“拥有 数据 仓库 ， 商 务 分 析 者 能 够 得 到 什么 ?” 首 先 ， 拥有 数据 仓库 可 以 通过 提供 相关 
信息 ， 据 此 估计 性 能 并 做 出 重要 调整 ， 以 帮助 战胜 其 他 竞争 对 手 ， 可 以 提供 竞争 优势 。 第 
二 ,数据 仓库 可 以 提高 企业 生产 力 ， 因 为 它 能 够 快速 、 有 效 地 搜集 准确 描述 组 织 机 构 的 信 
息 。 第 三 ， 数 据 仓库 有 利于 客户 联系 管理 ， 因 为 它 跨越 所 有 商务 、 所 有 部 门 和 所 有 市 场 ， 提 
供 了 顾客 和 商品 的 一 臻 视图。 最 后 ， 通 过 以 一 致 和 可 靠 的 方式 长 期 跟踪 趋势 、 模 式 和 异常 ， 
数据 仓库 可 以 降低 成 本 。 

为 设计 有 效 的 数据 仓库 ， 需 要 理解 和 分 析 商 务 需 求 ， 并 构造 一 个 商务 分 析 框 架 。 构 建 一 
个 大 型 复杂 的 信息 系统 就 像 建 造 一 个 大 型 复杂 的 建筑 ， 业 主 、 设 计 师 和 建筑 商都 有 不 同 的 视 
图 。 这 些 视 图 结合 在 一 起 ， 形 成 一 个 复杂 的 框架 ， 代 表 自 顶 向 下 、 商 务 驱动 的 或 业主 的 视 
图 ， 也 代表 自 底 向 上 、 建 筑 商 驱动 的 或 信息 系统 实现 者 的 视图 。 

关于 数据 仓库 的 设计 ， 必 须 考虑 四 种 不 同 的 视图 ， 自 顶 向 下 视图 、 数 据 源 视 图 、 数 据 仓 
库 视 图 和 商务 查询 视图 。 

。 自 顶 向 下 视图 使 得 我 们 可 以 选择 数据 仓库 所 需 的 相关 信息 。 这 些 信息 能 够 满足 当前 

和 未 来 的 商务 需求 。 

。 数据 源 视图 揭示 被 操作 数据 库 系统 收集 、 存 储 和 管理 的 信息 。 这 些 信息 可 能 以 不 同 
的 详细 程度 和 精度 记录 ， 存 放 在 个 别 数据 源 表 或 集成 的 数据 源 表 中 。 通 常 ， 数 据 源 
用 传统 的 数据 建 模 技 术 ， 如 实体 - 联系 模型 或 CASE (计算 机 辅助 软件 工程 ) 工具 
建 模 。 

。 数据 仓库 视图 包括 事实 表 和 维 表 。 它 们 提供 存放 在 数据 仓库 内 的 信息 ， 包 括 预 计算 
的 总 和 与 计数 ， 以 及 提供 历史 背景 的 关于 源 、 日 期 和 时 间 等 信息 。 

。 最 后 ， 商 务 查询 视图 是 从 最 终 用 户 的 角度 透视 数据 仓库 中 的 数据 。 

建立 和 使 用 数据 仓库 是 一 项 复杂 的 任务 ， 因 为 它 需 要 商务 技巧 、 技 术 技 巧 和 计划 管理 技 
巧 。 关 于 商务 技巧 ， 建 立 数据 仓库 涉及 理解 这 样 的 系统 如 何 存储 和 管理 它们 的 数据 ; 如何 构 
造 一 个 提取 程序 ， 将 数据 由 操作 数据 库 转 换 到 数据 仓库 ， 如 何 构造 一 个 仓库 刷新 软件 ， 合 理 
地 保持 数据 仓库 中 的 数据 相对 于 操作 数据 库 中 数据 的 当前 性 。 使 用 数据 仓库 涉及 理解 它 所 包 
含 的 数据 的 含义 ， 以 及 理解 商务 需求 并 将 它 转换 成 数据 仓库 查询 。 

关于 技术 技巧 ， 数 据 分 析 者 需要 理解 如 何 由 定量 信息 作出 估价 ， 以 及 如 何 根据 数据 仓库 
中 的 历史 信息 得 到 的 结论 推导 事实 。 这 些 技巧 包括 发 现 模式 和 趋势 ， 根 据 历史 推断 趋势 和 发 
现 异常 或 模式 漂移 的 能 力 ， 并 根据 这 种 分 析 提出 条 理 清晰 的 管理 建议 。 最 后 ， 计 划 管 理 技巧 
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涉及 需要 与 许多 技术 人 员 、 经 销 商 和 最 终 用 户 沟 通 ， 以 便 以 及 时 和 讲求 效益 的 方式 提交 
结果 。 


4. 3.2 数据 仓库 的 设计 过 程 

我 们 考察 数据 仓库 设计 过 程 和 步骤 。 

数据 仓库 可 以 使 用 自 项 向 下 方法 、 自 底 向 上 方法 ,或 二 者 结合 的 混合 方法 设计 。 自 顶 向 
下 方法 由 总 体 设计 和 规划 开始 。 当 技术 成 熟 并 且 已 经 掌握 ， 对 必须 解决 的 商务 问题 清楚 并 且 
已 经 很 好 理解 时 ， 这 种 方法 是 有 用 的 。 自 底 向 上 方法 以 实验 和 原型 开始 。 在 商务 建 模 和 技术 
开发 的 早期 阶段 ， 这 种 方法 是 有 用 的 。 这 样 可 以 以 相当 低 的 代价 推进 ， 在 做 出 重要 承诺 之 前 
评估 技术 带 来 的 利益 。 在 混合 方法 下 ， 一 个 组 织 既 能 利用 自 顶 向 下 方法 的 规划 性 和 战略 性 的 
特点 ， 又 能 保持 像 自 底 向 上 方法 一 样 快速 实现 和 立即 应 用 。 

从 软件 工程 的 角度 来 看 ， 数 据 仓库 的 设计 和 构造 包含 以 下 步骤 规划 、 需 求 研究 、 问 
题 分 析 、 仓 库 设 计 、 数 据 集成 和 测试 ， 最 后 ， 部 署 数据 仓库 。 大 型 软件 系统 可 以 用 两 种 
方法 开发 : 瀑布 式 方法 和 螺旋 式 方法 。 瀑 布 式 方法 在 进行 下 一 步 之 前 ， 每 一 步 都 进行 结 
构 的 和 系统 的 分 析 ， 就 像 瀑布 一 样 ， 从 一 级 落 到 下 一 级 。 螺 旋 式 方法 涉及 功能 渐 增 的 系 
统 的 快速 产生 ， 相 继 发 布 之 间 的 间隔 很 短 。 对 于 数据 仓库 ， 特 别 是 对 于 数据 集 市 的 开发 ， 
这 是 一 个 好 的 选择 ， 因 为 其 周转 时 间 短 ， 能 够 快速 修改 ， 并 且 新 的 设计 和 技术 可 以 及 时 
接受 。 

一 般 而 言 ， 数 据 仓 库 的 设计 过 程 包含 如 下 步骤; 

(1) 选取 待 建 模 的 商务 处 理 〈 例 如 ， 订 单 、 发 票 、 发 货 、 库 存 、 记 账 管理 、 销 售 或 一 
WIRK) 。 如 果 一 个 商务 过 程 是 整个 组 织 的， 并 涉及 多 个 复杂 的 对 象 ， 应 当选 用 数据 仓库 
模型 。 然 而 ， 如 果 处 理 是 部 门 的 ， 并 关注 某 一 类 商务 处 理 的 分 析 ， 则 应 选择 数据 集 市 。 

(2) 选取 商务 处 理 的 粒度 。 对 于 处 理 ， 该 粒度 是 基本 的 ， 在 事实 表 中 是 数据 的 原子 级 
(例如 ， 单 个 事务 、 一 天 的 快照 等 ) 。 

(3) 选取 用 于 每 个 事实 表 记 录 的 维 。 上 典型 的 维 是 时 间 、 商 品 、 顾 客 、 供 应 商 、 仓 库 、 
事务 类 型 和 状态 。 

(4) 选取 将 安放 在 每 个 事实 表 记 录 中 的 度量 。 典 型 的 度量 是 可 加 的 数值 量 ， 如 dollars_ 
sold 和 units_sold , 

由 于 数据 仓库 的 构造 是 一 项 困难 、 长 期 的 任务 ， 因 此 应 当 清 楚 地 定义 它 的 实现 范围 。 最 
初 的 数据 仓库 的 实现 目标 应 当 是 详细 而 明确 的 、 可 实现 的 和 可 测量 的 。 这 涉及 确定 时 间 和 预 
算 的 分 配 ， 一 个 组 织 的 哪些 子 集 需要 建 模 ， 选 取 的 数据 源 数量 ， 提 供 服 务 的 部 门 数 量 和 
类 型 。 

一 旦 设计 和 构造 好 数据 仓库 ， 数 据 仓 库 的 最 初 部 署 就 包括 初始 化 安装 、 首 次 展示 规划 、 
培训 和 熟悉 情况 。 平 台 的 升级 和 维护 也 要 考虑 。 数 据 仓库 管理 包括 数据 刷新 、 数 据 源 同步 、 
规划 灾难 恢复 、 管 理 存 取 控 制 和 安全 、 管 理 数据 增长 、 管 理 数据 库 性 能 以 及 数据 仓库 的 增强 
和 扩充 。 范 围 管 理 包 括 控制 查询 、 维 、 报 告 的 数量 和 范围 ， 限 制 数据 仓库 的 大 小 ， 或 限制 进 
度 、 预 算 和 资源 。 

各 种 数据 仓库 设计 工具 都 可 以 使 用 。 数 据 仓库 开发 工具 提供 一 些 功 能 ， 定 义 和 编 辑 元 数 
据 库 内 容 (如 模式 、 脚 本 或 规则 ) ， 回 答 查询 ， 输 出 报告 ， 向 或 从 关系 数据 库 目 录 传 送 元 数 
据 。 规 划 与 分 析 工 具 研 究 模式 改变 的 影响 ， 以 及 当 刷 新 率 或 时 间 窗 口 改变 时 对 刷新 性 能 的 
影响 。 
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4.3.3 ”数据 仓库 用 于 信息 处 理 


数据 仓库 和 数据 集 市 已 在 广泛 的 应 用 领域 使 用 。 工 商 企业 主管 使 用 数据 仓库 与 数据 集 市 
中 的 数据 进行 数据 分 析 并 做 出 战略 决策 。 在 许多 公司 ， 数 据 仓库 用 作 企业 管理 的 计划 一 执行 
一 评估 “闭环 ”反馈 系统 的 必要 部 分 。 数 据 仓库 广泛 用 在 银行 、 金 融 服 务 、 生 活 消费 品 和 
零售 批发 部 门 ， 以 及 诸如 基于 需求 的 产品 的 生产 控制 。 
通常 ， 数 据 仓库 使 用 的 时 间 越 长 ， 它 进化 得 就 越 好 。 进 化 发 生 在 整个 过 程 的 多 个 阶段 。 
最 初 ， 数 据 仓 库 主要 用 于 产生 报告 和 回答 预先 定义 的 查询 。 渐 渐 地 ， 它 用 于 分 析 汇 总 和 详细 
数据 ， 结 果 以 报表 和 图 表 形式 提供 。 稍 后 ， 数 据 仓 库 用 于 决策 ， 进 行 多 维 分 析 和 复杂 的 切片 
及 切 块 操作 。 最 后 ， 使 用 数据 控 掘 工具， 数据 仓库 可 能 用 于 知识 发 现 战略 决策 制定 。 在 这 种 
意义 下 ， 数 据 仓 库 工具 可 以 分 为 访问 与 检索 工具 ， 数 据 库 报表 工具 ， 数 据 分 析 工 具 和 数据 挖 
MLA, 
工商 企业 用 户 需 要 一 种 手段 ， 知 道 数 据 仓 库 里 有 什么 〈 通 过 元 数据 ) ， 如 何 访 问 数据 仓 
库 的 内 容 ， 如 何 使 用 数据 分 析 工 具 考 察 这 些 内 容 和 如 何 提供 分 析 结 果 。 
有 三 类 数据 仓库 应 用 : 信息 处 理 、 分 析 处 理 和 数据 挖 气 。 
e 信息 处 理 支持 查询 和 基本 的 统计 分 析 ， 并 使 用 交叉 表 、 表 、 图 表 或 图 进行 报告 。 数 
据 仓库 信息 处 理 的 当前 趋势 是 构造 低 价格 的 基于 Web 的 访问 工具 ， 然 后 与 Web 浏览 
器 集成 在 一 起 。 
。 分 析 处 理 支持 基本 的 OLAP 操作 ， 包 括 切 片 与 切 块 、 下 钻 、 上 卷 和 转轴 。 一 般 地 ， 
它 在 汇总 的 和 细节 的 历史 数据 上 操作 。 与 信息 处 理 相 比 ， 联 机 分 析 处 理 的 主要 优势 
是 它 支 持 数 据 仓 库 的 多 维 数 据 分 析 。 
© 数据 挖掘 支持 知识 发 现 ， 包 括 找 出 隐藏 的 模式 和 关联 ， 构 造 分 析 模型 ， 进 行 分 类 和 
预测 ， 并 使 用 可 视 化 工具 提供 挖掘 结果 。 
“数据 挖掘 与 信息 处 理 和 联机 数据 分 析 的 关系 是 什么 ?” 信 息 处 理 基 于 查询 ， 可 以 发 现 
有 用 的 信息 。 然 而 ， 这 种 查询 的 回答 反映 直接 存放 在 数据 库 中 的 信息 ， 或 通过 聚集 函数 可 计 
算 的 信息 ; 它们 不 反映 复杂 的 模式 ， 或 隐藏 在 数据 库 中 的 规律 。 因 此 ， 信 息 处 理 不 是 数据 
挖掘 。 
联机 分 析 处 理 向 数据 挖掘 走 近 了 一 步 ， 因 为 它 可 以 由 用 户 选 定 的 数据 仓库 子 集 ， 在 多 粒 
度 上 导出 汇总 的 信息 。 这 种 描述 等 价 于 第 1 章 介 绍 的 类 /概念 描述 。 由 于 数据 挖掘 系统 也 能 
挖掘 更 一 般 的 类 /概念 描述 ， 这 就 提出 了 一 个 有 趣 的 问题 :“OLAP 进行 数据 挖掘 吗 ? OLAP 
系统 实际 就 是 数据 挖 气 系 统 吗 ?” 
OLAP 和 数据 挖掘 的 功能 可 以 视 为 不 相交 的 : OLAP 是 数据 汇总 /聚集 工具 ， 帮 助 简化 数 
据 分 析 ; 而 数据 挖掘 自动 地 发 现 隐藏 在 大 量 数据 中 的 隐 含 模式 和 有 趣 知识 。OLAP 工具 的 目 
标 是 简化 和 支持 交互 数据 分 析 ; 而 数据 控 掘 工具 的 目标 是 尽 可 能 自动 处 理 ， 尽 管 仍 然 允 许 用 
户 指导 这 一 过 程 。 在 这 种 意义 下 ， 数 据 挖掘 比 传统 的 联机 分 析 处 理 前 进 了 一 步 。 
另 一 种 更 广泛 的 观点 可 能 被 接受 : 数据 挖掘 包含 数据 描述 和 数据 建 模 。 由 于 OLAP 系统 
可 以 提供 数据 仓库 中 数据 的 一 般 描述 ，OLAP 的 功能 基本 上 是 用 户 指导 的 汇总 和 比较 (通过 
上 、 下 钴 ,旋转 ， 切 片 ， 切 块 和 其 他 操作 ) 。 尽 管 有 限 ， 但 这 些 都 是 数据 挖掘 功能 。 同 样 根 
据 这 种 观点 ， 数 据 挖掘 的 涵盖 面 要 比 简单 的 OLAP 操作 宽 得 多 ， 因 为 它 不 仅 执行 数据 汇总 和 
比较 ， 而 且 执 行 关 联 、 分 类 、 预 测 、 聚 类 、 时 间 序 列 分 析 和 其 他 数据 分 析 任务 。 
数据 挖掘 不 限于 分 析 存 放 在 数据 仓库 中 的 数据 。 它 可 以 分 析 比 数据 仓库 提供 的 汇总 数据 
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粒度 更 细 的 数据 。 它 也 可 以 分 析 事 务 的 、 空 间 的 、 文 本 的 和 多 媒体 数据 ， 这 些 数 据 很 难 用 现 
有 的 多 维 数据 库 技 术 建 模 。 在 这 种 意义 下 ， 数 据 控 掘 涵盖 的 数据 挖掘 功能 和 处 理 的 数据 复杂 
性 要 比 OLAP 大 得 多 。 l 

由 于 数据 挖掘 涉及 的 分 析 比 OLAP 更 自动 化 、 更 深入 ， 因 而 数据 挖 据 可 望 有 更 广 的 应 用 
范围 。 数 据 挖掘 可 以 帮助 工商 企业 的 经 理 找到 更 合适 的 客户 ， 也 能 获得 对 商务 的 洞察 ， 帮 助 
提高 市 场 份额 和 增加 利润 。 此 外 ， 数 据 控 气 能够 帮助 经 理 了 解 顾客 群 的 特点 ， 并 据 此 制定 最 
佳 定价 策略 ; 不 是 根据 直觉 ， 而 是 根据 顾客 的 购买 模式 导出 的 实际 商品 组 来 调整 商品 捆绑 ， 
在 降低 促销 商品 开销 的 同时 ， 提 高 总 体 促 销 的 纯 收益 。 


4.3.4 从 联机 分 析 处 理 到 多 维 数据 挖 据 


数据 挖掘 领域 已 经 对 各 种 类 型 的 数据 的 挖掘 做 了 大 量 研究 ， 这 些 数据 类 型 包括 关系 数 
据 、 数 据 仓库 的 数据 、 事 务 数据 、 时 间 序 列 数据 、 空 间 数据 、 文 本 数据 和 一 般 文件 。 多 维 数 
据 挖 气 〈 又 称 探 索 式 多 维 数 据 挖 气 、 联 机 分 析 挖掘 或 OLAM) 把 数据 挖掘 与 OLAP 集成 在 
一 起 ， 在 多 维 数据 库 中 发 现 知识 。 在 数据 挖掘 的 许多 不 同 范例 和 结构 中 ， 由 于 以 下 原因 ， 多 
维 数据 挖掘 特别 重要 : 

。 数据 仓库 中 数据 的 高 质量 : 大 部 分 数据 挖掘 工具 需要 在 集成 的 、 一 致 的 和 清理 过 的 

数据 上 运行 ， 这 需要 昂贵 的 数据 清理 、 数 据 变换 和 数据 集成 作为 预 处 理 步骤 。 经 由 
这 些 预 处 理 而 构造 的 数据 仓库 不 仅 充 当 OLAP， 而 且 也 充当 数据 控 气 的 高 质量 的 、 
有 价值 的 数据 源 。 注 意 ， 数 据 挖掘 也 可 以 充当 数据 清理 和 集成 的 有 价值 的 工具 。 

。 环绕 数据 仓库 的 信息 处 理 基础 设施 : 全 面 的 数据 处 理 和 数据 分 析 基 础 设施 已 经 或 将 
要 围绕 数据 仓库 而 系统 地 建立 ， 这 包括 多 个 异 构 数据 库 的 访问 、 集 成 、 合 并 和 变换 ， 
ODBC/OLE DB 连接 ，Web 访问 和 服务 机 制 ， 报 表 和 OLAP 分 析 工 具 。 明 智 的 做 法 
是 尽量 利用 可 用 的 基础 设施 ， 而 不 是 一 切 从 头 做 起 。 

。 基于 OLAP 的 多 维 数据 探索 : 有 效 的 数据 控 据 需要 探索 式 数 据 分 析 。 用 户 常常 想 遍 
历数 据 库 ， 选 择 相关 数据 ， 在 不 同 的 粒度 上 分 析 它 们 ， 并 以 不 同 的 形式 提供 知识 / 结 
果 。 多 维 数据 挖掘 提 供 在 不 同 的 数据 子 集 和 不 同 的 抽象 层 上 进行 数据 控 掘 的 机 制 ， 
在 数据 立方 体 和 数据 挖掘 的 中 间 结 果 上 进行 钻 取 、 旋 转 、 过 滤 、 切 块 和 切片 。 这 些 
与 数据 /知识 可 视 化 工具 一 起 ， 将 大 大 增强 探索 式 数据 挖掘 的 能 力 和 灵活 性 。 

© 数据 挖 气功 能 的 联机 选择 : 用 户 常常 可 能 不 知道 他 想 控 据 什么 类 型 的 知识 。 通 过 将 
OLAP 与 多 种 数据 挖 气功 能 集成 在 一 起 ， 多 维 数据 挖掘 为 用 户 选择 所 期 望 的 数据 控 
气功 能 ， 动 态 地 切换 数据 挖掘 任务 提供 了 灵活 性 。 

第 5 章 更 详细 地 介绍 数据 仓库 ， 考 察 诸如 数据 立方 体 计算 、OLAP 查询 回答 策略 和 多 维 
数据 挖掘 等 实现 问题 。 其 后 的 章节 致力 于 数据 挖掘 技 术 的 研究 。 正 如 我 们 所 看 到 的 ， 本 章 提 
供 的 数据 仓库 与 OLAP 技术 导论 对 于 数据 挖掘 的 研究 是 必要 的 。 这 是 因为 数据 仓库 为 用 户 提 
供 了 大 量 清洁 的 、 有 组 织 的 和 汇总 的 数据 ， 大 大 地 方便 了 数据 挖掘 。 例 如 ， 数 据 仓库 不 是 存 
储 每 个 销售 事务 的 细节 ， 而 是 可 能 为 每 个 分 店 存放 每 类 商品 的 汇总 ， 或 到 较 高 层 〈 如 每 个 
国家 ) 的 汇总 。OLAP 提供 数据 仓库 的 汇总 数据 的 多 种 多 样 动态 视图 的 能 力 ， 为 成 功 的 数据 
挖掘 葛 定 了 坚实 的 基础 。 

此 外 ， 我 们 也 相信 数据 挖掘 应 当 是 以 人 为 中 心 的 过 程 。 用 户 通常 与 系统 交互 ， 进 行 探测 
式 数据 分 析 ， 而 不 是 要 求 数 据 挖掘 系统 自动 地 产生 模式 和 知识 。OLAP 为 交互 式 数据 分 析 树 
立 了 一 个 好 榜样 ， 并 为 探索 式 数据 挖掘 做 了 必要 的 准备 。 例 如 ， 考 虑 关联 模式 的 发 现 。 应 当 
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允许 用 户 沿 着 任意 维 上 卷 ， 而 不 是 在 原始 的 数据 层 ， 在 事务 间 挖 掘 关 联 。 

例如 ， 用 户 可 能 希望 在 item 维 上 卷 ， 由 观察 特定 电视 机 的 数据 ， 到 观察 某 种 品牌 (如 
RE. KZ) 的 电视 机 的 数据 。 在 搜索 有 趣 的 关联 时 ， 用 户 也 可 以 由 事务 层 导 航 到 顾客 层 
或 顾客 类 型 层 。 这 种 OLAP 风格 的 数据 挖掘 是 多 维 数据 挖掘 的 特点 。 在 本 书 研究 数据 挖 扬 原 
理 时 ， 我 们 特别 强调 多 维 数据 挖 据 ， 即 强调 数据 挖 据 与 OLAP 技术 的 集成 。 


4.4 数据 仓库 的 实现 


数据 仓库 包含 海量 数据 。OLAP 服务 器 要 在 数秒 内 回答 决策 支持 查询 。 因 此 ， 至 关 重 要 
的 是 ， 数 据 仓库 系统 要 支持 高 效 的 数据 立方 体 计算 技术 、 存 取 方 法 和 查询 处 理 技 术 。 本 节 ， 
我 们 概述 数据 仓库 系统 的 有 效 实现 方法 。4. 4. 1 节 考 察 如 何 有 效 地 计算 数据 立方 体 。4. 4.2 
节 展 示 如 何 使 用 位 图 或 连接 索引 来 索引 OLAP 数据 。 接 下 来 ， 我 们 研究 如 何 处 理 OLAP 查询 
(4.4.3 节 )。 最 后 ,，4.4.4 节 介绍 用 于 OLAP 处 理 的 各 种 类 型 数据 仓库 服务 器 。 


4.4.1 数据 立方 体 的 有 效 计 算 : 概述 


多 维 数据 分 析 的 核心 是 有 效 地 计算 许多 维 集合 上 的 聚集 。 用 SQL 的 术语 ， 这 些 聚 集 称 
为 分 组 (group-by) 。 每 个 分 组 可 以 用 一 个 方 体 表示 ， 而 分 组 的 集合 形成 定义 数据 立方 体 
的 方 体 的 格 。 本 节 ， 我 们 考察 与 数据 立方 体 有 效 计算 相关 的 问题 。 

1. compute cube 操作 与 维 灾 难 

立方 体 计算 的 一 种 方法 是 扩充 SQL， 使 之 包含 compute cube 操作 。compute cube 操 
作 在 操作 指定 的 维 的 所 有 子 集 上 计算 聚集 。 这 可 能 需要 很 大 的 存储 空间 ， 特 别 是 对 于 大 量 的 
维 。 我 们 先 直 观 地 观察 数据 立方 体 有 效 计算 所 涉及 的 问题 。 

例 4.6 数据 立方 体 是 方 体 的 格 。 假 设 我 们 想 对 AllElectronics 的 销售 创建 一 个 数据 立方 
ik, 41 city, item, year 和 sales_in_dollars。 你 希望 能 够 用 以 下 查询 分 析 数 据 : 

e “ 按 city 和 item 分 组 计算 销售 和 。” . 

o “de city 分 组 计算 销售 和 。” 

o “iem 分 组 计算 销售 和 。” 

可 从 该 数据 立方 体 计算 的 方 体 或 分 组 的 总 数 是 多 少 ? 取 city, item 和 year 三 个 属性 作为 
数据 立方 体 的 维 ，sales_in_dollars 为 度量 ， 可 以 由 该 数据 立方 体 计算 的 方 体 或 分 组 总 数 为 
2 =8 个 。 可 能 的 分 组 是 1(city,item， 





year) , (city, item) , ( city, year) , ( item, a OD (顶点) 方 体 
year) ,( city) , (item) , (year), ()}, 其 
H, ) 意 指 分 组 为 空 《 即 不 对 任何 维 2 pate 
分 组 ) 。 这 些 分 组 形成 了 该 数据 立方 
体 的 方 体格 ， 如 图 4. 14 所 示 。 
基本 方 体 包含 三 个 维 city, item 2-D 方 体 
和 year， 它 可 以 返回 这 三 个 维 的 任 意 (city, item) (item, year) 
组 合 的 总 销售 额 。 顶 点 方 体 或 0-D 方 3D (基本 ) 方 体 


体 表示 分 组 为 空 的 情况 ， 它 包含 所 有 


销售 的 总 和 。 基 本 方 体 是 最 低 泛 化 

图 4.14 方 体 的 格 ,组 成 三 维 数据 立方 体 ， 每 个 方 体 代 
(最 特殊 化 ) 的 方 体 。 顶 点 方 体 是 最 表 一 个 不 同 的 分 组 ;基本 方 体 包含 三 个 维 : city, 
mick (最 不 特殊 化 ) 的 方 体 ， 通常 item 和 year 


(city, item, year) 
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记 作 all1。 如 果 我 们 从 顶点 方 体 开始 ， 沿 方 体 的 格 向 下 探查 ， 这 等 价 于 在 数据 立方 体 中 下 
钻 。 如 果 我 们 从 基本 方 体 向 上 探查 ， 则 类 似 于 上 卷 。 m 

不 包含 分 组 的 SQL 查 淘 ( 例 如,“ 计算 总 销售 和 ”) 是 0 维 操作 。 包 含 一 个 分 组 的 SQL 
查询 〈 例 如 ,“ 按 city 分 组 计算 销售 和 ”) 是 一 维 操作 。 在 n 维 上 的 一 个 立方 体操 作 等 价 于 
一 组 分 组 语句 ， 每 个 对 应 于 个 维 的 一 个 子 集 。 因此， 立方体 操作 是 分 组 操作 的 维 推广 。 

类 似 于 SQL 语法 ， 例 4. 1 的 数据 立方 体 可 以 定义 为 : 

define cube sales_cube | city,item,year]:sum(sales_in dollars) 
对 于 维 立 方 体 ， 包括 基本 方 体 总 共有 2" 个 方 体 。 语 句 

compute cube sales_cube 
显 式 地 告诉 系统 ， 对 于 集合 {city，item，yeor| 的 所 有 8 个 子 集 (包括 空 集合 ) ， 计 算 销售 
聚集 方 体 。 立 方 体 计算 操作 首先 由 Cray 等 [GCB'97] 提出 并 研究 。 

对 于 不 同 的 查询 ， 联 机 分 析 处 理 可 能 需要 访问 不 同 的 方 体 。 因 此 ， ee 

至 少 一 部 分 方 体 ， 看 来 是 个 好 主意 。 预 计算 带 来 快速 的 响应 时 间 ， 并 避免 一 些 宛 余 计算 。 
际 上 ， 如 果 不 是 全 部 ， 大 多 数 OLAP 产品 都 借助 于 多 维 聚 集 的 预计 算 。 

然而 ， 预 计算 的 主要 挑战 是 ， 如 果 数 据 立方 体 中 所 有 的 方 体 都 预先 计算 ， 所 需 的 存储 空 
间 可 能 爆炸 ， 特 别 是 当 立方 体 包含 许多 维 时 。 当 许多 维 都 具有 相关 联 的 概念 分 层 ， 具 有 多 层 
时 ， 存 储 需 求 甚至 更 多 。 这 个 问题 称 做 维 灾 难 (curse of dimensionality), 。 维 灾难 的 程度 在 下 
面 解释 。 

n 维 数据 立方 体 有 多 少 个 方 体 ?” 如 果 每 个 维 都 没有 概念 分 层 ， 我 们 在 上 面 已 看 到 ,nn 

维 数据 立方 体 的 方 体 总 数 为 2"。 然 而 ， 在 实践 中 ， 许 多 维 都 确实 具有 概念 分 层 。 例 如 ， 维 
time 通常 不 只 是 在 一 个 概念 层 (如 year) 上 ， 而 是 在 多 个 概念 层 探查 ， 如 “ day < month < 
quarter < year” 。 对 于 半 维 数据 立方 体 ， 可 能 产生 的 方 体 (包括 沿 着 每 -一 维 的 分 层 结构 攀升 产 
生 的 方 体 ) 总 数 是 : 








方 体 总 数 = IT +1) (4.1) 


Hp, 多 是 与 维 i 相 关联 的 层 数 。 将 1 加 到 (4.1) RB LE, 以 包括 虚拟 的 顶层 a11。 
(注意 ， 因 为 泛 化 到 all 等 价 于 去 掉 一 个 维 。) 

该 公式 基于 这 样 一 个 事实 : 每 个 维 最 多 只 有 一 个 抽象 层 出 现在 一 个 方 体 中 。 例 如 ， 上 面 
说 明 的 time 维 有 4 个 概念 层 ， 如 果 包 括 虚 拟 层 all 的 话 ， 有 5 个 概念 层 。 如 果 数 据 立方 体 
有 10 维 , 每 维 5 层 (包括 al1)， 则 可 能 产生 的 方 体 总 数 将 是 5"~9.8 x 105。 每 个 方 体 的 
大 小 还 依赖 于 每 个 维 的 基数 〈 即 不 同 值 的 个 数 ) 。 例 如 ， 如 果 每 个 城市 的 AllElectronics 分 店 
都 销售 所 有 的 商品 ， 则 仅 city_item 分 组 就 有 | city| x |item | 个 元 组 。 随 着 维 数 、 概 念 分 层 数 
或 基数 的 增加 ， 许 多 分 组 所 需要 的 空间 都 将 大 大 超过 输入 关系 的 大 小 。 

现在 ， 你 可 能 已 经 意识 到 ， 预 计算 并 物化 由 数据 立方 体 〈 或 由 基本 方 体 ) 可 能 产生 的 
所 有 方 体 是 不 现实 的 。 如 果 有 很 多 方 体 ， 并 且 这 些 方 体 都 很 大 ， 更 合理 的 选择 是 部 分 物化 ， 
好 只 物化 某 些 可 能 产生 的 方 体 。 

> Mamie: 方 体 的 选择 计算 

给 定 基本 方 体 ， 方 体 的 物化 有 三 种 选择 : 

(1) 不 物化 (no materialization) : 不 预先 计算 任何 “ 非 基本 ” 方 体 。 这 导致 回答 查询 时 
实时 计算 昂贵 的 多 维 聚 集 ， 这 可 能 非常 慢 。 

(2) 完全 物化 (full materialization ) : 预先 计算 所 有 方 体 。 计 算 的 方 体 的 格 是 完整 立方 
体 〈ful cube)。 通 常 ， 这 种 选择 需要 海量 存储 空间 来 存放 所 有 预计 算 的 方 体 。 
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(3) 部 分 物化 (partial materialization) : 有 选择 地 计算 整个 可 能 的 方 体 集中 一 个 适当 的 
子 集 。 我 们 也 可 以 计算 数据 立方 体 的 一 个 子 集 ， 它 只 包含 满足 用 户 指定 的 某 种 条 件 (如 每 
个 单元 的 元 组 计数 大 于 某 个 阐 值 ) 的 那些 单元 。 对 于 后 一 种 情况 ， 我 们 将 使 用 术语 子 立方 
体 (subcube)， 其 中 各 种 方 体 只 有 某 些 单元 被 预先 计算 。 部 分 物化 是 存储 空间 和 响应 时 间 二 
者 之 间 的 很 好 折 中 。 

方 体 或 子 立 方 体 的 部 分 物化 应 考虑 三 个 因素 : (1) 确定 要 物化 的 方 体 子 集 或 子 立方 体 ; 
(2) 在 查询 处 理 时 利用 物化 的 方 体 或 子 立方 体 ; (3) 在 装 人 和 刷新 时 ， 有 效 地 更 新 物化 的 
方 体 或 子 立方 体 。 

物化 方 体 或 子 立 方 体 的 选择 需要 考虑 工作 负荷 下 的 查询 ， 以 及 它们 的 频率 和 它们 的 访 
问 开销 。 此 外 ， 也 要 考虑 工作 负荷 的 特点 、 增 量 更 新 的 开销 和 整个 存储 需求 量 。 选 择 还 
必须 考虑 物理 数据 库 设计 的 情况 ， 如 索引 的 产生 和 选择 。 有 些 OLAP 产品 采用 启发 式 方法 
进行 方 体 和 子 立方 体 选 择 。 一 种 流行 的 方法 是 物化 这 样 的 方 体 集 ， 其 他 经 常 引用 的 方 体 
是 基于 它们 的 。 作 为 一 种 替换 方法 ， 我 们 可 以 计算 冰山 立方 体 。 冰 山 立 方 体 〈iceberg 
cube) 是 一 个 数据 立方 体 ， 它 只 存放 其 聚集 值 (如 count) 大 于 某 个 最 小 支持 度 阔 值 的 
立方 体 单元 。 

男 一 种 常用 的 策略 是 物化 一 个 外 这 立方 体 ( shell cube) 。 这 涉及 预计 算数 据 立 方 体 的 只 
有 少量 维 (例如 ，3 到 5 维 ) 的 方 体 。 在 维 的 其 他 组 合 上 的 查询 可 以 临时 计算 。 由 于 本 章 的 
目的 是 为 数据 挖掘 提供 数据 仓库 导论 和 概述 ， 我 们 把 方 体 选 择 和 计算 的 详细 讨论 推迟 到 第 5 
章 。 那 里 ， 我 们 将 更 深入 地 研究 各 种 数据 立方 体 的 计算 方法 。 

一 旦 选 定 的 方 体 被 物化 ， 在 查询 处 理 时 利用 它们 就 很 重要 。 这 涉及 一 些 问 题 ， 例如， 如 
何 从 大 量 候选 的 物化 方 体 中 确定 相关 方 体 ， 如 何 使 用 物化 方 体 中 可 用 的 索引 结构 ， 以 及 如 何 
将 OLAP 操作 转换 成 选 定 方 体 上 的 操作 。 这 些 问题 将 在 4. 4. 3 小节 和 第 5 章 讨 论 。 

最 后 ， 在 装 人 和 刷新 期 间 ， 应 当 有 效 地 更 新 物化 的 方 体 ; 应 当 为 这 些 操作 探索 并 行 和 增 
量 更 新 技术 。 


4.4.2 索引 OLAP 数据 位 图 索引 和 连接 索引 


为 了 提供 有 效 的 数据 访问 ， 大 部 分 数据 仓库 系统 支持 索引 结构 和 物化 视图 (使 用 方 
体 ) 。 选 择 方 体 物 化 的 一 般 方 法 在 前 一 小 节 已 经 讨论 过 了 。 本 小 节 ， 我 们 考察 如 何 使 用 位 图 
索引 和 连接 索引 对 OLAP 数据 进行 索引 。 

位 图 索引 (bitmap indexing) 方法 在 OLAP 产品 中 很 流行 ， 因 为 它 允 许 在 数据 立方 体 中 
快速 搜索 。 位 图 索引 是 record_ID (RID) 列表 的 一 种 替代 表示 。 在 给 定 属性 的 位 图 索引 中 ， 
属性 域 中 的 每 个 值 v"， 有 一 个 不 同 的 位 向 量 Bry。 如 果 给 定 的 属性 域 包含 n 个 值 ， 则 位 图 索引 
中 每 项 需要 ”个 位 〈 即 a 位 向 量 ) 。 如 果 数 据 表 给 定 行 上 该 属性 值 为 *， 则 在 位 图 索引 的 对 
应 行 ， 表 示 该 值 的 位 为 1， 该 行 的 其 他 位 均 为 0。 

例 4.7 位 图 索引 。 在 AllElectronics 数据 仓库 中 ， 假 设 维 item 在 顶层 有 4 个 值 (代表 商 
品类 型 ) : “home entertainment” ~ “computer” ~ “phone” 和“ security”。 每 个 值 (例如 “com- 
puter”) 用 item 的 位 图 索引 表 的 一 个 位 向 量 表示 。 假 设 数据 立方 体 存放 在 一 个 具有 100 000 
行 的 关系 表 中 。 由 于 item 的 域 有 4 个 值 ， 位 图 索引 需要 4 个 位 向 量 (或 列表 ) ， 每 个 100 000 
个 二 进位 。 图 4. 15 给 出 了 一 个 包含 维 item 和 city 的 基本 (数据 ) 表 和 它 的 每 个 维 到 位 图 索 
引 的 映射 。 a 
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基本 表 iem 位 图 索引 表 ci 位 图 索引 表 
RID | item city RID | H _| C P | S | RID | V | T 
RI H V Rl 1 0 0 0 RI 1 0 
R2 C Vv R2 0 1 0 0 R2 1 0 
R3 P v R3 0 0 1 0 R3 1 0 
R4 S V R4 0 0 0 I R4 l 0 
R5 H T R5 1 0 0 0 R5 0 1 
R6 C T R6 0 1 0 0 R6 0 1 
R7 P T R7 0 0 1 0 R7 0 1 
R8 S T R8 0 0 0 1 R8 0 1 











图 4.15 使 用 位 图 索引 指向 OLAP 数据 
注 ; HAR “home entertainment”, C 代表 “compuier”，P 代表 “phone”，S 代表 “security”,， V 代表 “Vancou- 
ver”, TRÄ “Toronto” o 

与 散 列 和 树 索引 相 比 ， 位 图 索引 具有 优势 。 对 于 基数 较 小 的 值 域 它 特别 有 用 ， 因 为 比 
较 、 连 接 和 聚集 操作 都 简化 成 位 算术 运算 ， 大 大 减少 了 处 理 时 间 。 由 于 字符 串 可 以 用 单个 二 
进位 表示 ,位 图 索引 显著 降低 了 空间 和 LO 开销 。 对 于 基数 较 高 的 值 域 ， 使 用 压缩 技术 ， 这 
种 方法 可 以 接受 。 

连接 索引 (join indexing) 方法 的 流行 源 于 它 在 关系 数据 库 查 询 处 理 方面 的 应 用 。 传 统 
的 索引 将 给 定 列 上 的 值 映 射 到 具有 该 值 的 行 的 列表 上 。 与 之 相反 ， 连 接 索 引 登 记 来 自 关 系数 
据 库 的 两 个 关系 的 可 连接 行 。 例 如 ， 如 果 两 个 关系 尺 (RID, A) MS (B, SID) 在 属性 4 
和 如 上 连接 ， 则 连接 索引 记录 包含 (RID, SID) 对 ， 其 中 RID 和 SID 分 别 为 来 自 关 系 尺 和 
S 的 记录 标识 符 。 因 此 ， 连 接 索 引 记录 能 够 识别 可 连接 的 元 组 ， 而 不 必 执 行 开销 很 大 的 连接 
操作 。 对 于 维护 来 自 可 连接 的 关系 的 外 码 ? 和 与 之 匹配 的 主 码 的 联系 ， 连 接 索 引 特别 有 用 。 

数据 仓库 的 星 形 模式 模型 使 得 连接 索引 对 于 交叉 表 搜索 特别 有 吸引 力 ， 因 为 事实 表 和 它 
对 应 的 维 表 的 连接 属性 是 事实 表 的 外 码 和 维 表 的 主 码 。 连 接 索 引 维护 维 (例如 在 一 个 维 表 
AL) 的 属性 值 与 事实 表 的 对 应 行 的 联系 。 连 接 索 引 可 以 跨越 多 维 ， 形 成 复合 连接 索引 。 我 


” 们 可 以 使 用 连接 索引 识别 感 兴趣 的 子 立 方 体 。 


例 4.8 ”连接 索引 。 在 例 4.1 中 ， 我 们 定义 了 AlEleetonics 的 一 个 星 形 模式 ， 形 如 
“sales_star [ time, item, branch, location]: dollars_sold = sum (sales_in_dollars)” , PXK 
sales 与 维 表 location 和 item 之 间 的 连接 索引 联系 显示 在 图 4. 16 中 。 例 如 ， 维 表 location 的 值 
“Main Street” 与 事实 表 sales 中 的 元 组 T57, T238 和 T884 连接 。 类 似 地 ， 维 表 item 的 值 
“Sony- TV” 与 事实 表 sales 的 元 组 T57 和 T459 连接 。 对 应 的 连接 索引 表 显 示 在 图 4. 17 中 。 
































sales location/sales item/sales 
连接 索引 表 连接 索引 表 
location location |sales_key item |sales_key 
Main Street | T57 | | Sony-tv | T37 
Sony-TV Main Street | T238 Sony-TV | T459 
Main Street | T884 see tee 








location/item/sales 


链接 两 个 维 的 连接 索引 表 
| location item A 




















Main Street Sony-TV T57 
图 4.16 事实 表 sales 与 维 表 location 图 4. 17 ”基于 图 4. 16 的 事实 表 sales 与 维 表 location 
和 item 之 间 的 连接 和 item 之 间 的 连接 的 连接 索引 表 





加 ”一 个 关系 模式 中 形成 另 一 个 关系 模式 主 码 的 属性 集 称 做 外 码 。 
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假设 在 sales_star 数据 立方 体 中 有 360 个 时 间 值 ，100 种 商品 ，50 个 分 店 ，30 个 地 点 ，1000 
万 个 销售 元 组 。 如 果 事实 表 sales 中 只 记录 了 30 种 商品 ， 其 余 的 70 种 商品 显然 不 参与 连接 。 如 
果 不 使 用 连接 索引 ， 必 须 执行 额外 的 WO， 将 事实 表 和 维 表 的 连接 部 分 一 起 读 人 人 。 m 
为 进一步 加 快 查询 处 理 ， 我 们 可 以 将 连接 索引 与 位 图 索引 集成 ， 形 成 位 图 连接 索引 。 


4.4.3 OLAP 查询 的 有 效 处 理 


物化 方 体 和 构造 OLAP 索引 结构 的 目的 是 加 快 数据 立方 体 查询 处 理 的 速度 。 给 定 物化 的 
视图 ， 查 询 处 理应 按 如 下 步骤 进行 : 

(1) 确定 哪些 操作 应 当 在 可 利用 的 方 体 上 执行 : 这 涉及 将 查询 中 的 选择 、 投 影 、 上 卷 
(分 组 ) 和 下 钻 操作 转换 成 对 应 的 SQL 和 /或 OLAP 操作 。 例 如 ， 数 据 立方 体 上 的 切片 和 切 
块 可 能 对 应 于 物化 方 体 上 的 选择 和 /或 投影 操作 。 

(2) 确定 相关 操作 应 当 使 用 哪些 物化 的 方 体 : 这 涉及 找 出 可 能 用 于 回答 查询 的 所 有 物 
化 方 体 ， 使 用 方 体 之 间 的 “支配 ”联系 知识 ， 进 行 修剪， 评估 使 用 剩余 物化 方 体 的 开销 ， 
并 选择 开销 最 小 的 方 体 。 

例 4.9 OLAP 查询 处 理 。 假 定 我 们 为 AlElectronies 定义 了 一 个 数据 立方 体 ， 形 式 为 
“sales_cube| time, item, location]: sum (sales_in_dollars)” , i FA 的 维 层 次 ， 对 于 time 是 
“day < month < quarter < year”， 对 于 item 是 “item_name < brand < type”， 而 对 于 location 是 
“ street < city < province_or_state < country” 。 

假设 待 处 理 的 查询 在 | brand, province_or_city}| 上 ， 选 择 常量 为 “year =2010”。 还 假定 
有 四 个 物化 的 方 体 可 用 ， 它 们 是 

e 方 体 1: | year, item_name, city} 

© 方 体 2: |year, brand, country} 

© 方 体 3: | year, brand, province_or_state! 

© 方 体 4: |item_name, province_or_state| ， 其 中 year =2010 

“以 上 四 个 方 体 中 ， 应 当选 择 哪 一 个 处 理 该 查询 ?” 较 细 粒 度 的 数据 不 能 由 较 粗 粒度 的 
数据 产生 。 因 此 ， 不 能 使 用 方 体 2， 因 为 country 是 比 province_or_state 更 一 般 的 概念 。 可 以 
用 方 体 1、 方 体 3 和 方 体 4 来 处 理 该 查询 ， 因 为 1) 它们 与 该 查询 具有 相同 的 维 集合 ， 或 是 
其 超 集 ; (2) 该 查询 中 的 选择 子 句 可 以 蕴涵 在 方 体 的 选择 中 ; (3) 与 brand 和 province_or_state 
相 比 ， 这 些 方 体 中 的 item 和 location 的 抽象 层 都 在 更 细 的 层次 。 

“如 果 用 来 处 理 该 查询 ， 如 何 比较 每 个 方 体 的 开销 ?” 看 来 ， 使 用 方 体 1 开销 最 大 ， 因 
为 item_name 和 city 都 分 别处 于 比 该 查询 给 出 的 brand 和 province_or_state 更 低 的 概念 层 。 如 
果 没 有 许多 year 值 与 item 相关 联 ， 而 对 于 每 个 brand 值 有 许多 item_name 值 ， 则 方 体 3 将 比 
方 体 4 小 一 些 ， 因 此 应 当选 择 方 体 3 来 处 理 查询 。 然 而 ， 如 果 方 体 4 有 有 效 的 索引 可 用 ， 则 
方 体 4 可 能 是 较 好 的 选择 。 因 此 ， 需 要 某 种 基于 代价 的 估计 ， 以 确定 应 当 使 用 哪个 方 体 集 来 
处 理 该 查询 。 | 


4.4.4 OLAP 服务 器 结构 ，ROLAP、MOLAP、HOLAP 的 比较 


从 逻辑 上 讲 ，OLAP 服务 器 为 商务 用 户 提供 数据 仓库 或 数据 集 市 的 多 维 数据 ， 而 不 必 关 
尾数 据 如 何 存放 和 存放 在 何 处 。 然 而 ，OLAP 服务 器 的 物理 结构 和 实现 必须 考虑 数据 存放 问 
题 。 用 于 OLAP 处 理 的 数据 仓库 服务 器 的 实现 包括 : 

(1) 关系 OLAP (ROLAP) 服务 器 : 这 是 一 种 中 间 服 务 器 ， 介 于 关系 的 后 端 服务 器 和 
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客户 前 端 工具 之 间 。 它 们 使 用 关系 的 或 扩充 关系 的 DBMS 存储 并 管理 数据 仓库 数据 ， 而 
OLAP 中 间 件 支持 其 余部 分 。ROLAP 服务 器 包括 每 个 DBMS 后 端 优化 ， 育 集 导航 逻辑 的 实 
现 ， 附 加 的 工具 和 服务 。 看 来 ，ROLAP 技术 比 MOLAP 技术 具有 更 好 的 可 伸缩 性 。 例 如 ， 
Microstrategy 的 DSS 服务 器 就 采用 ROLAP 方法 。 

(2) 多 维 OLAP (MOLAP) 服务 器 : 这 些 服务 器 通过 基于 数组 的 多 维 存储 引擎 ， 支 持 
数据 的 多 维 视图 。 它 们 将 多 维 视图 直接 映射 到 数据 立方 体 数 组 结构 。 使 用 数据 立方 体 的 优点 
是 能 够 对 预计 算 的 汇总 数据 快速 索引 。 注 意 ， 如 果 数 据 集 是 稀 玖 的 ， 则 使 用 多 维 数据 存储 的 
存储 利用 率 可 能 很 低 。 在 这 种 情况 下 ， 应 当 使 用 稀疏 矩阵 压缩 技术 (第 5 章 )。 

许多 MOLAP 服务 器 都 采用 两 级 存储 表示 来 处 理 稠密 和 稀 芍 数据 集 : 识别 较 稠 密 的 子 立 
方 体 并 作为 数组 结构 存储 ， 而 稀 朴 子 立 方 体 使 用 压缩 技术 ， 从 而 提高 存储 利用 率 。 

(3) 混合 OLAP (HOLAP) 服务 器 : 混合 OLAP 方法 结合 ROLAP 和 MOLAP 技术 ， 得 
益 于 ROLAP 较 大 的 可 伸缩 性 和 MOLAP 的 快速 计算 。 例 如 ，HOLAP 服务 器 允许 将 大 量 详细 
数据 存放 在 关系 数据 库 中 ， 而 聚集 保持 在 分 离 的 MOLAP 存储 中 。 微 软 的 SQL Server 2000 $ 
持 混 合 OLAP 服务 器 。 

(4) 特殊 的 SQL 服务 器 : 为 了 满足 关系 数据 库 中 日 益 增长 的 OLAP 处 理 的 需要 ， 一 些 
数据 库 系 统 供应 商 实现 了 特殊 的 SQL 服务 器 ， 提 供 高 级 查询 语言 和 查询 处 理 ， 在 只 读 环境 
下 ， 在 星 形 和 雪花 形 模式 上 支持 SQL 查询 。 

“数据 怎样 实际 地 存放 在 ROLAP 和 MOLAP 结构 中 ?” 我 们 首先 看 看 ROLAP。 如 名 称 所 
示 ，ROLAP 使 用 关系 表 存 放 联 机 分 析 处 理 数 据 。 注 意 ， 与 基本 方 体 相 关联 的 事实 表 称 为 基 
本 事实 表 。 基 本 事实 表 存 放 的 数据 所 处 的 抽象 级 由 给 定 的 数据 立方 体 的 模式 的 连接 键 指出 。 
育 集 数据 也 能 存放 在 事实 表 中 ， 这 种 表 称 做 汇总 事实 表 (summary fact table) 。 有 些 汇 总 事 
实 表 既 存放 基本 事实 表 数据 ， 又 存放 聚集 数据 ( 见 例 4.10)。 也 可 以 对 每 一 抽象 层 分 别 使 用 
汇总 事实 表 ， 只 存放 聚集 数据 。 

例 4. 10 ROLAP 数据 存储 。 表 4.4 显示 了 一 个 汇总 事实 表 ， 它 既 存 放 基 本 事实 数据 ， 
又 存放 聚集 数据 。 该 表 的 模式 是 “ (record_identifier(RID), item, «+, day, month, quarter , 
year, dollars_sold)” , $E} day, month, quarter 和 year 定义 销售 日 期 ，dollars_sold 是 销售 
额 。 考 虑 RID 分 别 为 1001 和 1002 的 元 组 。 这 些 元 组 的 数据 在 基本 事实 级 ， 销 售 日 期 分 别 是 
2010 年 10 月 15 日 和 2010 年 10 月 23 日 。 考 虑 RID 为 5001 的 元 组 ， 它 所 在 的 抽象 级 比 RID 
为 1001 和 1002 的 元 组 更 一 般 。 这 里 ，day 的 值 被 泛 化 为 a11， 因 此 对 应 的 time 值 为 2010 年 
10 月 。 也 就 是 说 ， 显 示 的 dollars_sold 是 一 个 聚集 值 ， 代 表 2010 年 10 月 全 月 的 销售 ， 而 不 
只 是 2010 年 10 H 15 日 或 10 月 23 日 的 销售 。 特 殊 值 all 用 于 表示 汇总 数据 的 小 计 。 m 


表 4.4 单个 基本 和 汇总 事实 表 








RID item e. day month quarter year dollars_sold 
1001 TV tn 15 10 Q4 2010 250. 60 
1002 TV = 23 10 Q4 2010 175. 00 
5001 TV te all 10 Q4 2010 45 786. 08 





MOLAP 使 用 多 维 数组 结构 存放 联机 分 析 处 理 数 据 。 这 种 结构 在 第 5 章 讨论 数据 仓库 实 
现时 更 详细 地 讨论 。 


第 4 章 数据 仓库 与 联机 分 析 处 理 


大 部 分 数据 仓库 系统 采用 客户 - 服务 器 结构 。 关 系数 据 存储 总 是 驻 留 在 数据 仓库 /数据 
集 市 服务 器 站 点 上 。 多 维 数据 存储 可 以 驻 留 在 数据 库 服务 器 站 点 或 客户 站 点 。 


4.5 数据 泛 化 ， 面向 属性 的 归纳 

从 概念 上 讲 ， 数 据 立 方 体 可 以 看 做 一 种 多 维 数据 泛 化 。 一 般 而 言 ， 数 据 泛 化 通过 把 相对 
低层 的 值 ( 例如， 属性 年 龄 的 数值 ) 用 较 高 层 概 念 ( 例 如， 青年 、 中 年 和 老年 ) 替换 来 汇 
总 数据 ,或 通过 减少 维 数 ， 在 涉及 较 少 维 数 的 概念 空间 汇总 数据 (例如 ， 在 汇总 学 生 组 群 
时 ,删除 生日 和 电话 号 码 属性 ) 。 给 定 存储 在 数据 库 中 的 大 量 数据 ， 能 够 以 简洁 的 形式 在 更 
一 般 的 《而 不 是 在 较 低 的 ) 抽象 层 描 述 数据 是 很 有 用 的 。 人 允许 数据 集 在 多 个 抽象 层 泛 化 ， 
便于 用 户 考察 数据 的 一 般 性 质 。 例 如 ， 给 定 AllElectronics 数据 库 ， 销 售 经 理 可 能 不 想 考 察 每 
个 顾客 的 事务 ， 而 愿意 观察 泛 化 到 较 高 层 的 数据 ， 如 根据 地 区 按 顾客 组 汇总 ， 观 察 每 组 顾客 
的 购买 频率 和 顾客 的 收入 。 

这 导致 一 种 数据 泛 化 形式 : 概念 描述 。 概 念 通常 指数 据 的 汇集 ， 如 frequent_ buyers、 
graduate_students 等 。 作 为 一 种 数据 挖掘 任务 ， 概 念 描述 不 是 数据 的 简单 枚 举 。 概 念 描 述 
(concept description) 产生 数据 的 特征 和 比较 描述 。 当 被 描述 的 概念 涉及 对 象 类 时 ， 有 时 也 
称 概念 描述 为 类 描述 (class deseription ) 。 特 征 (characterization) 提供 给 定数 据 汇集 的 简洁 
汇总 ， 而 概念 或 类 的 比较 (comparison) 也 称 做 区 分 (discrimination) ， 提 供 两 个 或 多 个 数据 
集合 的 比较 描述 。 

到 目前 为 止 ， 我 们 已 经 研究 了 数据 仓库 中 使 用 多 维 、 多 层 数 据 泛 化 的 数据 立方 体 (或 
OLAP) 方法 。“ 数 据 立方 体 技术 足以 完成 所 有 的 大 型 数据 集 的 概念 描述 任务 吗 ?” 考 虑 下 面 
的 情况 。 

。 复杂 的 数据 类 型 和 聚集 : 数据 仓库 和 OLAP 工具 基于 多 维 数据 模型 ， 将 数据 看 做 数 
据 立 方 体 形式 ， 由 维 (或 属性 ) 和 度量 (聚集 函数 ) 组 成 。 然 而 ， 当 前 许多 OLAP 
系统 都 限制 维 是 非 数 值 数据 ， 而 度量 是 数值 数据 。 实 际 上 ， 数 据 库 可 能 包括 各 种 类 
型 的 属性 ， 包 括 数值 的 、 非 数值 的 、 空 间 的 、 文 本 的 或 图 像 的 。 理 想 情况 下 ， 它 们 
也 应 该 包括 在 概念 描述 中 。 

此 外 ,数据 库 中 属性 的 聚集 也 可 能 包括 复杂 的 数据 类 型 ， 如 非 数 值 数据 的 集合 、 

空间 区 域 的 合并 、 图 像 的 合成 、 文 本 的 集成 和 对 象 指针 分 组 等 。 这 样 ， 由 于 可 能 的 
维和 度量 类 型 的 限制 ，OLAP 只 表现 为 一 种 简单 的 数据 分 析 模 型 。 需 要 时 ， 概 念 描 
述 应 当 处 理 具有 复杂 数据 类 型 的 属性 和 它们 的 聚集 。 
用 户 控制 与 自动 处 理 : 数据 仓库 中 的 联机 分 析 处 理 是 用 户 控 制 的 过 程 。 维 的 选择 和 
OLAP 操作 (例如 ， 下 销 、 上 卷 、 切 块 和 切片 的 使 用 都 由 用 户 指挥 和 控制 。 尽 管 
在 大 部 分 OLAP 系统 中 ， 用 户 控制 的 界面 都 是 相当 友好 的 ， 但 确实 需要 用 户 对 每 个 
维 的 作用 有 透彻 的 理解 。 此 外 ， 为 了 找到 一 个 满意 的 描述 ， 用 户 需 要 使 用 一 长 串 
OLAP 操作 。 通 常 ， 希 望 有 一 个 更 自动 化 的 过 程 ， 帮 助 用 户 确定 哪些 维 (或 属性 ) 
应 当 包 含 在 分 析 中 ， 给 定 的 数据 应 当 泛 化 到 什么 程度 ， 以 便 产生 有 趣 的 数据 汇总 。 

本 节 介 绍 另 一 种 概念 描述 方法 ， 称 做 面向 属性 的 归纳 。 它 用 于 复杂 的 数据 类 型 并 依赖 数 
据 驱 动 的 泛 化 过 程 。 


4. 5.1 数据 特征 的 面向 属性 的 归纳 
概念 描述 的 面向 属性 的 归纳 (Attribute- Oriented Induction, AOI) 方法 于 1989 年 首次 提 
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出 ， 比 数据 立方 体 方法 的 提出 早 几 年 。 数 据 立 方 体 方法 基本 上 是 基于 数据 的 物化 视图 ， 通 常 
在 数据 仓库 中 预先 计算 。 一 般 而 言 ， 在 OLAP 或 数据 挖 据 查询 提交 处 理 之 前 ， 它 脱 机 地 计算 
聚集 。 另 一 方面 ， 面 向 属性 的 归纳 基本 上 是 面向 查询 的 、 基 于 泛 化 的 、 联 机 的 数据 分 析 处 理 
技术 。 注 意 ， 并 不 存在 按照 联机 聚集 和 脱 机 预计 算 区 分 两 种 方法 的 固有 界线 。 数 据 立 方 体 中 
有 些 聚 集 也 可 以 联机 计算 ， 而 多 维 空间 的 脱 机 预计 算 也 可 以 加 快 面向 属性 的 归纳 速度 。 

面向 属性 归纳 的 基本 思想 是 : 首先 使 用 数据 库 查 询 收集 任务 相关 的 数据 ; 然后 ， 通 过 考 
察 任务 相关 数据 中 每 个 属性 的 不 同 值 的 个 数 进行 泛 化 。 泛 化 或 者 通过 属性 删除 ， 或 者 通过 属 
性 泛 化 进行 。 聚 集 通 过 合并 相同 的 广义 元 组 ， 并 收集 它们 对 应 的 计数 值 进 行 。 这 降低 了 泛 化 
后 的 数据 集合 的 规模 。 结 果 广 义 关系 可 以 映射 到 不 同形 式 (如 图 表 或 规则 ) 提供 给 用 户 。 

下 面 的 例子 解释 面向 属性 的 归纳 过 程 。 我 们 首先 讨论 用 它 进行 特征 化 。 在 4. 5.3 节 ， 该 
方法 被 扩展 用 于 挖掘 类 比较 。 

例 4.11 特征 化 数据 挖掘 查询 。 假 设 用 户 想 描述 Big University 数据 库 中 研究 生 的 一 般 
特征 。 给 定 的 属性 有 name, gender, major, birth_place, residence, phone# (电话 号 码 ) 和 
Epa 〈 平 均 积 分 点 ) 。 该 特征 的 数据 挖掘 查询 可 以 用 数据 挖掘 查询 语言 DMQL 表示 如 下 : 

use Big- University_DB 

mine characteristics as “Science_Students” 

in relevance to name, gender, major, birth_place, birth_date, residence, 

phone#, gpa 


from student 
where status in “graduate” 


我 们 将 看 看 这 个 典型 的 数据 挖掘 查 询 例 子 如何 使 用 面向 属性 的 归纳 挖掘 特 征 描述 。 

首先 ， 在 面向 属性 归纳 之 前 进行 数据 聚焦 (data focusing) 。 这 一 步 对 应 于 说 明 任务 相关 
数据 〈 即 用 于 分 析 的 数据 ) 。 根 据 数据 挖掘 查询 提供 的 信息 收集 数据 。 由 于 数据 挖掘 查询 通 
常 只 涉及 数据 库 的 一 部 分 ， 选 择 任务 相关 的 数据 集 不 仅 使 得 控 气 更 有 效 ， 而 且 与 在 整个 数据 
库 挖 气相 比 ， 能 够 产生 更 有 意义 的 结果 。 

对 于 用 户 来 说 ， 指 定 相关 的 数据 集 〈 即 用 于 控 据 的 属性 ， 如 DMQL 的 in relevance to 
子 句 所 指出 的 属性 ) 可 能 是 困难 的 。 有 时 ， 用 户 只 能 选择 少量 他 认为 可 能 重要 的 属性 ， 而 
遗漏 在 描述 中 可 能 起 作用 的 其 他 属性 。 例 如 ， 假 定 birth_place 由 属性 city, province_or_state 
和 country 定义 。 这 些 属性 中 ,假设 用 户 只 想到 说 明 citys XT AEE birth_place 维 上 泛 化 ， 定 
义 该 维 的 其 他 属性 也 应 当 包 括 进来 。 换 言 之 ， 系 统 自 动 地 包括 province_or_state 和 country HE 
为 相关 属性 ， 使 得 ciy 可 以 在 归纳 过 程 中 泛 化 到 较 高 的 概念 层 。 

另 一 个 极端 是 ， 用 户 可 能 引进 太 多 属性 ， 如 用 “in relevance to * ”指定 所 有 可 能 
的 属性 。 在 这 种 情况 下 ， 被 from 子 句 说 明 的 关系 的 所 有 属性 将 包含 在 分 析 中 。 许 多 属性 对 
于 有 趣 的 描述 可 能 是 没有 用 的 。 可 以 使 用 基于 相关 性 (53.3.2 节 ) 的 分 析 方 法 进行 属性 
相关 分 析 ， 并 从 描述 性 挖掘 过 程 中 过 滤 掉 统计 不 相关 或 弱 相 关 属 性 。 其 他 方法 ， 如 属性 子 集 
选择 ， 也 在 第 3 章 介 绍 过 。 

“ 子 句 “where status in “graduate”? 是 什么 意思 ?” 该 where 子 句 意味 着 在 属性 status 
上 存在 概念 分 层 。 这 种 概念 分 层 将 status 的 原始 层 的 值 (BN, “M.Sc”, “MA”. 
“M. B.A”. “Ph.D”. “B.Sc”, “B.A”) 组 织 成 较 高 层次 的 概念 ， 如 “graduate” 和 “wn- 
dergraduate”。 这 种 概念 分 层 在 传统 的 关系 查询 语言 中 没有 ， 而 很 可 能 成 为 数据 挖掘 语言 
公共 特征 。 

上 面 的 数据 挖 抉 查询 被 变换 成 如 下 关系 查询 ， 收 集 任务 相关 的 数据 集 : 
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use Big_University_DB 

select name, gender, major, birth_place, birth_date, residence, phone#, gpa 
from student 

where status in {“M.Sc.,” “M.A.” “M.B.A.,” “Ph.D”} 


转换 后 的 查询 在 关系 数据 库 Big_university_DB 上 执行 ， 并 返回 表 4. 5 所 示 数 据 。 该 表 称 
做 〈 任 务 相关 的 ) 初始 工作 关系 ， 它 是 要 进行 归纳 的 数据 。 注 意 ， 事 实 上 每 个 元 组 是 属 
性 -~ 值 对 的 合 取 。 因 此 ， 我 们 可 以 认为 关系 的 元 组 是 合 取 规 则 ， 而 关系 上 的 归纳 是 这 些 规则 








的 泛 化 。 = 
R45 初始 工作 关系 : 任务 相关 的 数据 集 
name gender major birth_place birth_date residence phone# gpa 
Jim Woodman M cs Vancouver, BC, Canada 12-8-76 3511, Main St., Richmond 687-4598 3.67 
Scott Lachance M cs Montreal, Que, Canada 7-28-75 345, IstAve. , Richmond 253-9106 3.70 
Laura Lee F physics Seattle, WA, USA 8-25-70 125, Austin Ave. , Burnaby 420-5232 3. 83 





“对 于 面向 属性 归纳 ， 现 在 数据 已 经 准备 好 ， 如 何 进 行 面向 属性 归纳 ?” 面 向 属性 归纳 
的 基本 操作 是 数据 泛 化 ， 它 可 以 用 两 种 方法 之 一 在 初始 关系 上 进行 : 属性 删除 和 属性 泛 化 。 

属性 删除 (attribute removl) 基于 如 下 规则 : 如 果 初 始 工作 关系 的 菜 个 属性 有 大 量 不 同 
的 值 ， 但 是 (情况 1) 在 该 届 性 上 没有 泛 化 操作 符 ( 例 如 ， 该 属性 没有 定义 概念 分 层 )， 或 
者 (情况 2) 它 的 较 高 层 概 念 用 其 他 属性 表示 ， 则 应 当 将 该 属性 从 工作 关系 中 删除 。 

我 们 考察 该 规则 的 理由 。 一 个 属性 - 值 对 表示 广义 元 组 或 规则 的 一 个 合 取 。 删 除 一 个 合 
取 就 删除 了 一 个 约束 ， 从 而 泛 化 了 规则 。 如 果 是 情况 1， 属 性 具有 大 量 的 不 同 值 ， 但 对 它 没 
有 泛 化 操作 符 ， 则 应 当 把 该 属性 删除 ， 因 为 它 不 能 被 泛 化 ， 并 且 保 留 它 就 意味 着 保留 大 量 析 
取 ， 与 产生 的 简洁 规则 的 目标 相悖 。 另 一 方面 ， 考 虑 情况 2， 属 性 的 高 层次 概念 用 其 他 属性 
表示 。 人 例如， 假定 该 属性 是 street， 它 的 高 层次 概念 用 属性 (city, province_or_state, country) 
表示 。 删 除 street 等 价 于 使 用 泛 化 操作 。 该 规则 对 应 于 机 器 学 习 的 示例 学 习 中 称 做 删除 条 件 
的 泛 化 规则 。 

RTEA (attribute generalization) 基于 如 下 规则 : 如 果 初 始 工作 关系 的 某 个 属性 有 大 
量 不 同 的 值 ， 并 且 该 属性 上 存在 泛 化 操作 符 的 集合 ， 则 应 当选 择 一 个 泛 化 操作 符 ， 并 将 它 用 
于 该 属性 。 该 规则 基于 如 下 理由 : 使 用 泛 化 操作 符 泛 化 工作 关系 中 元 组 或 规则 的 属性 值 ， 将 
使 得 规则 涵盖 更 多 的 原 数据 的 元 组 ， 从 而 泛 化 了 它 所 表示 的 概念 。 这 对 应 于 泛 化 规则 ， 在 示 
例 学 习 中 称 为 洛 泛 化 树 欧 升 或 概念 树 攀 升 。 

属性 删除 和 属性 泛 化 两 个 规则 都 表明 ， 如 果 某 属性 有 大 量 的 不 同 值 ， 应 当 进 行进 一 步 泛 
化 。 这 就 提出 了 一 个 问题 ， 多 大 才 算 “属性 具有 大 量 不 同 值 ”? 

这 取决 于 属性 或 应 用 ， 用 户 可 能 愿意 让 某 些 属性 留 在 很 低 的 抽象 层 ， 而 另 一 些 泛 化 到 较 
高 的 抽象 层 。 控 制 将 属性 泛 化 到 多 高 的 抽象 层 通常 是 相当 主观 的 。 该 过 程 的 控制 称 为 属性 泛 
化 控制 。 如 果 属 性 泛 化 得 “ 太 高 ” ， 则 可 能 导致 过 分 泛 化 ， 产 生 的 规则 可 能 没有 多 少 信息 。 

另 一 方面 ， 如 果 属 性 不 泛 化 到 “足够 高 的 层次 ”， 则 可 能 导致 泛 化 不 足 ， 得 到 的 规则 可 
能 也 不 含 多 少 信息 。 这 样 ， 面 向 属性 的 泛 化 应 当 把 握 好 尺度 。 有 许多 控制 泛 化 过 程 的 方法 。 
我 们 介绍 两 种 常用 的 方法 ， 然 后 用 例子 解释 它们 如 何 运作 。 

第 一 种 技术 称 做 属性 泛 化 阐 值 控制 ,或 者 对 所 有 的 属性 设置 一 个 泛 化 阐 值 ， 或 者 对 每 个 
属性 设置 一 个 阅 值 。 如 果 属性 的 不 同 值 个 数 大 于 该 属性 泛 化 阐 值 ， 则 应 当 进 行进 一 步 的 属性 
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删除 或 属性 泛 化 。 数 据 挖掘 系 统 通常 有 一 个 默认 的 属性 靖 值 〈( 取 值 范围 一 般 为 2 ~8) ， 并 且 
也 应 当 人 允许 专家 或 用 户 修改 该 阐 值 。 如 果 用 户 感 到 对 于 一 个 特定 的 属性 ， 泛 化 达到 的 层次 太 
高 ， 则 可 以 加 大 该 阐 值 ， 这 对 应 于 沿 着 该 属性 下 钼 。 为 进一步 泛 化 关系 ， 用 户 也 可 以 减 小 特 
CREW BHA; 这 对 应 于 沿 属性 上 卷 。 

第 二 种 技术 称 做 广义 关系 阅 值 控制 ， 为 广义 关系 设置 一 个 贱 值 。 如 果 广 义 关系 中 不 同 元 
组 的 个 数 超 过 该 赋值 ， 则 应 当 进 行进 一 步 泛 化 ， 否则， 不 再 进一步 泛 化 。 这 样 的 阐 值 也 可 以 
在 数据 挖 握 系统 中 提供 (通常 取 值 范围 为 10 ~30) ， 或 者 由 专家 或 用 户 设置 ， 并 且 人 允许 调 
整 。 例 如 ， 如 果 用 户 感到 广义 关系 太 小 ， 则 他 可 以 加 大 该 阐 值 ， 这 意味 着 下 钼 。 否 则 ， 为 进 
一 步 证 化 关系 ， 他 可 以 减 小 该 阐 值 ; 这 意味 着 上 卷 。 

这 两 种 技术 可 以 顺序 使 用 : 首先 使 用 属性 泛 化 立 值 控制 技术 泛 化 每 个 属性 ， 然 后 使 用 关 
系 立 值 控制 进一步 压缩 广义 关系 。 无 论 使 用 哪 种 泛 化 控制 技术 ， 都 应 当 人 允许 用 户 调 整 泛 化 阐 
值 ， 以 便 得 到 有 趣 的 概念 描述 。 

在 许多 面向 数据 库 的 归纳 过 程 中 ， 用 户 感 兴趣 的 是 在 不 同 的 抽象 层 得 到 数据 的 量化 信息 
或 统计 信息 。 因 此 ， 在 归纳 过 程 中 收集 计数 和 其 他 聚集 值 是 非常 重要 的 。 从 概念 上 讲 ， 这 可 
以 通过 采用 如 下 办 法 来 实现 。 聚 集 函 数 count () 与 每 个 数据 库 元 组 相关 联 。 对 于 初始 工作 
关系 的 每 个 元 组 ， 它 的 值 被 初始 化 为 1。 通 过 删除 属性 和 属性 泛 化 ， 初 始 关系 中 的 元 组 可 能 
被 泛 化 ， 导 致 相同 的 元 组 分 组 。 在 这 种 情况 下 ， 形 成 一 个 组 的 所 有 相等 元 组 应 当 合并 成 一 个 
元 组 。 

新 的 广义 元 组 的 计数 设置 成 初始 关系 中 被 新 的 广义 元 组 代表 的 元 组 的 计数 和 。 例 如 ， 假 
设 根据 面向 属性 归纳 ， 初 始 关系 中 52 个 数据 元 组 被 泛 化 成 同一 个 元 组 7。 也 就 是 说 ， 这 52 
个 元 组 的 泛 化 产生 元 组 了 的 52 个 相同 的 实例 。 这 52 个 相同 的 元 组 合并 ,形成 了 的 一 个 实 
例 ， 其 计数 设置 成 52。 其 他 也 可 以 与 每 个 元 组 相关 联 的 常用 的 聚集 函数 包括 sum () 和 
avg () 。 对 于 一 个 给 定 的 广义 元 组 ，sum () 包 含 产生 该 广义 元 组 的 初始 关系 的 给 定数 值 属 性 
值 的 和 。 假 定 元 组 了 包含 sum(units_sold) 作为 聚集 函数 ， 元 组 了 的 sum 值 应 当 设置 为 52 
个 元 组 的 units_sold Al, HR BM avg () HEA avg () = sum() /count () 计 算 。 - 

例 4. 12 面向 属性 的 归纳 。 这 里 ， 我 们 看 看 面向 属性 归纳 如 何在 表 4.5 的 初始 工作 关 
系 上 进行 归纳 。 对 于 关系 的 每 个 属性 ， 泛 化 过 程 如 下 、 

(1) name: 由 于 name 存在 大 量 不 同 值 ， 并 且 其 上 没有 定义 泛 化 操作 ， 因 此 该 属性 被 
删除 。 

(2) gender: HF gender 只 有 两 个 不 同 值 ， 因 此 该 属性 保留 ， 并 且 不 对 其 进行 泛 化 。 

(3) major: 假设 已 定义 了 一 个 概念 分 层 ， 人 允许 将 属性 major 泛 化 到 值 | arts&science , 
engineering, business| 。 还 假设 该 属性 的 泛 化 阐 值 被 设置 为 5， 并 且 初 始 关系 中 ，major 有 多 
于 20 个 不 同 值 。 根 据 属 性 泛 化 和 属性 泛 化 控制 ， 沿 给 定 的 概念 分 层 向 上 攀升 ，major 被 
泛 化 。 

(4) birth_place: 该 属性 有 大 量 不 同 值 ， 因 此 应 当 对 它 泛 化 。 假设 存在 birth_place 的 概 
念 分 层 ， 定 义 为 “city <province_or_state <country”。 如 果 初 始 工作 关系 中 country 的 不 同 值 个 
数 大 于 属性 泛 化 阐 值 ， 则 birth_place 应 当 删 除 ， 因为 尽管 存在 泛 化 操作 符 ， 泛 化 阔 值 也 不 会 
满足 。 如 果 假定 country KARAT BUD FEL BHA, Ml birth_place 应 当 泛 化 到 birth_country > 

(5) birth_date: 假设 存在 概念 分 层 ， 可 以 将 birth_date 泛 化 到 age， 而 age 泛 化 到 age_ 
range， 并 且 age_range 的 不 同 值 (区 间 ) 个 数 小 于 对 应 的 属性 泛 化 阐 值 ， 刚 应 当 对 birth 
date 进行 泛 化 。 


第 4 章 数据 仓库 与 联机 分 析 处 理 - 113 


(6) residence: 假定 residence 用 属性 number, street, residence_city, residence_province_or_ 
state 和 residence_country 定义 。number 和 street 的 不 同 值 多 半 很 多 ， 因 为 这 些 概 念 的 层次 相当 
{Eo FA, number 和 street 应 当 删 除 ， 将 residence 泛 化 到 residence_city， 其 中 包含 较 少 的 不 
同 值 。 

(7) phone#: 从 名 字 可 以 看 出 ， 该 属性 包含 太 多 不 同 值 ， 因 此 应 当 在 泛 化 中 删除 。 

(8) gpa: 假设 存在 概念 分 层 ， 将 gpa 划分 成 数值 区 间 ， 如 13.75 -4.0, 3.5 -3.75, =}, 
它 又 被 用 描述 值 | “excellent”, “very good”, =} 分 组 。 这 样 ， 该 属性 可 以 被 泛 化 。 

泛 化 过 程 将 导致 相同 元 组 的 分 组 。 例 如 ， 表 4.5 的 前 两 个 元 组 被 泛 化 成 相同 的 元 组 ( 即 
显示 在 表 4.6 中 的 第 一 个 元 组 )。 然 后 ， 这 些 相同 的 元 组 合并 成 一 个 ， 同 时 累计 它们 的 计数 
值 。 这 一 过 程 导致 表 4.6 所 示 的 广义 关系 。 


表 4.6 通过 对 表 4.5 的 数据 进行 面向 属性 归纳 得 到 的 广义 关系 





gender major birth_country age_range residence_city gpa count 
M Science Canada 20 -25 Richmond very_good 16 
F Science Foreign 25 -30 Burnaby excellent 22 





按照 OLAP 的 术语 ， 我 们 可 以 把 count () 看 做 度量 ， 而 把 其 他 属性 看 做 维 。 注 意 ， 聚 集 
PABA sum () 可 以 用 于 数值 属性 (如 salary、sales) 。 这 些 属 性 称 为 度量 属性 。 a 


4.5.2 面向 属性 归纳 的 有 效 实 现 
“面向 属性 的 归纳 如 何 实现 ?” 前 一 小 节 介绍 了 面向 属性 的 归纳 。 图 4. 18 中 总 结 了 一 般 
过 程 。 算 法 的 有 效 性 分 析 如 下 : 
。 算法 的 第 1 步 基本 上 是 关系 查询 ， 把 任务 相关 的 数据 收集 到 工作 关系 W 中 。 其 有 效 
性 依赖 于 所 用 的 查询 处 理 方法 。 考 虑 到 有 大 量 成 功 实现 的 商品 化 数据 库 系统 ， 该 步 
又 可 望 具有 很 好 的 性 能 。 l 
。 第 2 步 收集 初始 关系 上 的 统计 量 。 这 最 多 需要 扫描 一 次 该 关系 。 对 每 个 属性 计算 最 
低 期 望 层 和 确定 映射 对 (vz，v') 的 开销 依赖 于 每 个 属性 的 不 同 值 的 数量 ， 它 小 于 初 
始 关系 的 元 组 个 数 |W|。 注 意 ， 不 必 扫 描 工作 关系 ， 因 为 如 果 工 作 关 系 很 大 ， 则 它 
的 一 个 样本 就 足以 得 到 统计 量 ， 确 定 哪些 属性 应 该 泛 化 到 多 高 的 层次 ， 哪 些 属性 被 
删除 。 此 外 ， 这 些 统计 量 也 可 以 在 第 1 步 提取 和 产生 工作 关系 的 过 程 中 得 到 。 
。 第 3 步 导 出 主 关系 P。 这 通过 扫描 工作 关系 的 每 个 元 组 并 把 广义 元 组 插入 到 P 中 完 
成 。W 有 |W| 个 元 组 , P 中 有 p 个 元 组 。 对 于 W 中 的 每 个 元 组 t， 根 据 导出 的 映射 痊 
换 它 的 属性 值 ， 产 生 广 义 元 组 *。 如 果 采 用 图 4. 18 中 的 方法 (a) ， 则 每 个 ?需要 
0(logp) 时 间 找 到 计数 增值 或 元 组 插入 的 位 置 。 因 此 ， 所 有 广义 元 组 总 的 时 间 复 杂 度 
为 0( |W| xlogp) 。 如 果 采 用 图 4. 18 中 的 方法 (b), MENCER 0(1) 时 间 找 到 
计数 增值 的 元 组 。 因 此 ， 所 有 广义 元 组 的 时 间 复 杂 度 为 O(N) 。 
许多 数据 分 析 任务 都 需要 考察 大 量 的 维 或 属性 。 这 可 能 涉及 动态 地 引入 和 测试 附加 的 属 
性 ， 而 不 仅仅 是 挖掘 查询 中 说 明 的 那些 属性 。 此 外 ， 不 太 知道 真正 的 相关 数据 集 的 用 户 可 能 
简单 地 在 挖 据 查 询 中 指定 “in relevance to *“， 把 所 有 的 属性 都 包括 在 分 析 中 。 因 此 ， 
高 级 的 概念 描述 挖 据 过 程 需要 在 大 量 属性 上 进行 属性 相关 分 析 ， 选 择 最 相关 的 属性 。 这 种 分 
析 可 以 使 用 第 3 章 介绍 的 相关 性 度量 或 统计 显著 性 检验 。 


114 + 第 4 章 数据 仓库 与 联机 分 析 处 理 





一 


Rik: 面向 属性 归纳 。 根 据 用 户 的 数据 挖掘 请 求 ， 挖 据 关 系数 据 库 中 的 泛 化 特征 。 
输入 : 


DB， 关 系数 据 库 ; 
DMQuery， 数 据 挖 抉 查询; 
a_list， 属 性 列表 (包含 属性 a 等 ) ; 
Gen(a;)， 属 性 a; 上 的 概念 分 层 或 泛 化 操作 符 的 集合 ; 
a_gen_thresh( ai) ， 每 个 属性 a, MIZE. 
输出 : 主 广义 关系 P。 
方法 : 
1, W—get_task_relevant_data( DMQuery, DB); /工作 关系 WW 存放 任务 相关 的 数据 。 
2. prepare for generalization( W); VY 该 步 实现 如 下 。 
(a) 扫描 WW， 收 集 每 个 属性 a; 的 不 同 值 。( 注 意 ; 如 果 多 很 大 ， 可 以 通过 考察 W 的 样本 来 做 。) 
(b) 对 于 每 个 属性 ” ， 根 据 给 定 的 或 默认 的 属性 阔 值 ， 确 定 a; 是 否 应 当 删 除 ， 如 果 不 删 除 ， 则 计算 它 的 最 小 
期 望 层次 L;, ， 并 确定 映射 对 (v,v')， 其 中 vb 是 WW 中 a; MRR, Mr oE L 上 的 泛 化 值 。 
Pe—generalization ( W); . 
iBT PO AL AY "替换 WW 中 每 个 值 。， 累 计 count 并 计算 所 有 聚集 值 ， 导 出 主 广义 关系 P。 
这 一 步 可 以 用 以 下 两 种 方法 之 一 有 效 地 实现 : 
(a) 对 于 每 个 广义 元 组 ， 通 过 二 分 检索 将 它 插入 主 关系 P 中 。 如 果 元 组 已 在 P 中 ， 则 简单 地 增加 它 的 count 
并 相应 地 处 理 其 他 聚集 值 ， 否 则 ， 将 它 插 入 P。 
(b) 在 大 部 分 情况 下 ， 由 于 主 关 系 不 同 值 的 个 数 很 少 ， 可 以 将 主 关系 编码 ， 作 为 m BA, Hem E Ph 
的 属性 数 ， 而 每 个 维 包含 对 应 的 泛 化 属性 值 。 如 果 有 的 话 ， 数 组 的 每 个 元 素 存放 对 应 的 count MAE 
集 值 。 广 义 元 组 的 插入 通过 对 应 的 数组 元 素 上 的 度量 聚集 进行 。 


图 4.18 面向 属性 归纳 的 基本 算法 


例 4.13 泛 化 结果 表示 。 假 设 在 AllElectronics 数据 库 的 sales 关系 上 进行 面向 属性 归纳 ， 产 
生 去 年 销售 的 泛 化 描述 表 4.7。 该 描述 以 广义 关系 的 形式 显示 。 表 4.6 是 广义 关系 的 另 一 个 例子 。 


表 4.7 去 年 销售 的 广义 关系 


count (1000) ||location item sales (1000000 美元 ) 


» 


























sales (1000000 美元 ) count (1000) 






亚洲 TV 15 300 亚洲 ”计算 机 
欧洲 TV 12 250 欧洲 ”计算 机 150 1200 
TV 北美 ”计算 机 


这 种 广义 关系 也 可 以 用 交叉 表 、 各 种 形式 的 图 (例如 ， 饼 图 和 条 图 ) 或 量化 特征 规则 
( 即 显示 泛 化 关系 中 不 同 的 值 组 合 如 何 分 布 ) 表示 。 


4.5.3 类 比较 的 面向 属性 归纳 

在 许多 应 用 中 ， 用 户 可 能 对 单个 类 (或 概念 ) 的 描述 或 特征 不 感 兴趣 ， 而 是 希望 挖掘 
一 种 描述 ， 它 将 一 个 类 (或 概念 ) 与 其 他 可 比较 的 类 (或 概念 ) 相 区 分 。 类 区 分 或 比较 
(此 后 称 为 类 比较 ) 挖掘 区 分 目标 类 和 它 的 对 比 类 的 描述 。 注 意 ， 目 标 类 和 对 比 类 必须 是 可 
比较 的 ， 意 指 它们 具有 相似 的 维 或 属性 。 例 如 ，person 、address 和 item 这 三 个 类 不 是 可 比较 
的 。 然 而 ， 过 去 三 年 的 销售 是 可 比较 的 ， 计 算 机 科学 的 学 生 与 物理 学 的 学 生 也 是 可 比较 的 。 

在 前 儿 个 小 节 中 ， 我 们 关于 类 特征 的 讨论 处 理 单个 类 中 的 多 层 数 据 的 汇总 和 特征 。 可 以 
扩展 所 开发 的 技术 ， 处 理 多 个 可 比较 类 上 的 类 比较 。 例 如 ， 可 以 修改 类 特征 的 属性 汉化 过 
程 ， 使 得 泛 化 在 所 有 比较 类 上 同步 地 进行 。 这 使 得 所 有 类 的 属性 可 以 泛 化 到 同一 抽象 层 。 例 
如 ， 假 设 给 定 2009 年 和 2010 年 AllElectronics 的 销售 数据 ， 并 希望 比较 这 两 个 类 。 考 虑 具有 
抽象 层 city, province_or_state 和 country 的 维 location。 每 个 类 的 数据 都 应 当 泛 化 到 相同 的 lo- 
cation 层 。 也 就 是 说 ， 它 们 要 同步 地 都 泛 化 到 city 层 、province_or_state 层 或 country 层 。 理 想 
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情况 下 ， 这 种 比较 比 用 2009 年 温哥华 的 销售 和 2010 年 美国 的 销售 进行 比较 ( 即 每 个 销售 数 
据 集 泛 化 到 不 同 的 层次 ) 更 有 用 。 然 而 ,用 户 应 当 有 选择 ， 在 愿意 时 ， 用 他 自己 的 选择 替 
代 这 种 自动 的 同步 比较 。 

“如 何 进行 类 比较 ?” 一 般 地 ， 该 过 程 如 下 : 

(1) 数据 收集 : 通过 查询 处 理 收集 数据 库 中 相关 数据 ， 并 把 它 划 分 成 一 个 目标 类 和 一 
个 或 多 个 对 比 类 。 

(2) 维 相关 分 析 : 如 果 有 多 个 维 ， 则 应 当 在 这 些 类 上 进行 维 相关 分 析 ， 仅 选择 与 进 一 
步 分 析 高 度 相 关 的 维 。 这 一 步 可 以 使 用 相关 性 度量 或 基于 粹 的 度量 (第 3 章 ) 。 

(3) 同步 泛 化 : 泛 化 在 目标 类 上 进行 ， 泛 化 到 用 户 或 领域 专家 指定 的 维 阅 值 控制 的 层 ， 
产生 主 目标 类 关系 。 对 比 类 的 概念 泛 化 到 与 主 目标 类 关系 相同 的 层次 ， 形 成 主 对 比 类 关系 。 

(4) 导出 比较 的 表示 : 结果 类 比较 描述 可 以 用 表 、 图 或 规则 的 形式 可 视 化 。 这 种 表示 
通常 包括 “对 比 ” 度 量 ， 如 counts (百分比 计数 ) ， 反 映 目标 类 和 对 比 类 之 间 的 比较 。 如 
果 需 要 ， 用 户 可 以 在 目标 类 和 对 比 类 上 使 用 下 钼 、 上 卷 和 其 他 OLAP 操作 ， 调 整 比较 描述 。 

上 面 的 讨论 给 出 了 挖掘 数据 库 中 类 比较 算法 的 要 点 。 与 特征 相 比 ， 上 面 的 算法 涉及 目标 
类 与 对 比 类 的 同步 泛 化 ， 使 得 这 些 类 可 以 在 相同 的 抽象 层 同时 进行 比较 。 

例 4. 14 控 所 描述 Big- University 的 研究 生 和 本 科 生 的 类 比较 。 

例 4. 14 挖 据 类 比较 。 假 设 我 们 想 比 较 Big_University 的 研究 生 和 本 科 生 的 一 般 性 质 ， 
给 定 了 属性 name, gender, major, birth_place, birth_date, residence 、Phonre# 和 gpa, 

该 数据 挖掘 任务 可 以 用 DMQL 表达 如 下 : 

use Big University_DB 

mine comparison as “grad_vs_undergrad_students” 

in relevance to name, gender, major, birth_place, birth_date, residence, 

phone#, gpa 

for “graduate_students” 

where status in “graduate” 

versus “undergraduate_students” 

where status in “undergraduate” 


analyze count% 
from student 


我 们 看 看 这 个 典型 的 挖 据 比 较 描述 的 数据 挖掘 查询 如 何 处 理 。 

首先 ， 将 该 查询 转换 成 两 个 关系 查询 ， 收 集 两 个 任务 相关 的 集合 : 一 个 是 初始 目标 类 工 
作 关系 ， 另 一 个 是 初始 对 比 类 工作 关系 ， 如 表 4. 8 和 表 4.9 所 示 。 这 可 以 看 做 是 构造 数据 立 
方 体 ， 其 中 状态 | graduate, undergraduate) 作为 一 个 维 ， 其 他 属性 形成 剩 下 的 维 。 


R48 初始 工作 关系 : 目标 类 (WR) 





name gender major birth_place birth_date residence Phone# gpa 
Jim Woodman M CS Vancouver, BC, Canada 12-8-76 3511 Main St. , Richmond 687-4598 3.67 
Scott Lachance M cs Montreal, Que, Canada 7-28-75 345, Ist Ave. , Vancouver 253-9106 3.70 


Laura Lee F physics Seattle, WA, USA 8-25-70 125, Austin Ave, Bumaby 420-5232 3.83 


R49 初始 工作 关系 : 对 比 类 (AA) 








name gender major birth_place birth_date residence Phone# gpa 
Bob Schumann M Chemistry Calgary, Alt, Canada 1-10-78 2642 Halifax St. , Burnaby 294-4291 2.96 


Amy Eau F Biology Golden, BC, Canada 3-30-76 463 Sunset Cres., Vancouver 681-5417 3,52 
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其 次 ， 必 要 时 ， 在 两 个 数据 类 上 进行 维 相关 分 析 。 分 析 后 ， 不 相关 或 弱 相 关 的 维 (Bil 
W, name, gender, birth_place, residence 和 phone#) 从 结果 类 删除 。 只 有 那些 强 相 关 的 属性 
包含 在 其 后 的 分 析 中 。 

再 次 ， 进 行 同 步 泛 化 : 泛 化 在 目标 类 上 进行 ， 泛 化 到 用 户 或 领域 专家 指定 的 维 阔 值 控制 
的 层 ， 产 生 主 目标 类 关系 。 对 比 类 概念 泛 化 到 与 主 目标 类 关系 相同 的 层次 ， 形 成 主 对 比 类 关 
系 ， 如 表 4. 10 和 表 4. 11 所 示 。 与 本 科 生 相 比 ， 研 究 生 一 般 趋向 于 年 龄 稍 大 ，GPA 较 高 。 








表 4. 10 目标 类 的 主 广义 关系 {研究 生 ) 表 4. 11 对 比 类 主 广义 关系 (本 科 生 ) 
major age_range gpa count% major age_range gpa count% 

Science 21...25 good 5. 53 Science 16…20 fair 5. 53 
Sci 16…20 d 4. 53 

Science 26…30 good 5.02 cience goo 

Science >30 verygood 5. 86 Science 26…30 good 2. 32 

Business >30 excellent 4. 68 Business >30 excellent 0. 68 

$$ ~ o 


最 后 ， 结 果 类 比较 描述 以 表 、 图 和 /或 规则 的 形式 提供 。 这 种 可 视 化 表示 包括 比较 目标 
类 和 对 比 类 的 对 比 度量 (如 counts ) 。 例 如 ，5. 02% 的 研究 生 选 择 “ 科 学 ”专业 ， 年 龄 在 
26 ~30 岁 ，CPA X “good”, MRA 2.32% 的 本 科 生 具有 这 种 特征 。 如 果 需 要 ， 用 户 可 以 在 
目标 类 和 对 比 类 上 进行 销 取 和 执行 其 他 OLAP 操作 ， 调 整 最 终 描述 的 抽象 级 。 

概括 地 说 ， 与 数据 立方 体 方法 相 比 ， 数 据 特征 和 泛 化 的 面向 属性 的 归纳 方法 提供 了 另 一 
种 数据 汉化 方法 。 它 并 不 局 限于 关系 数据 ， 因 为 这 种 归纳 可 以 在 空间 、 多 媒体 、 序 列 以 及 其 
他 类 型 的 数据 集 上 进行 。 此 外 ， 不 需要 预先 计算 数据 立方 体 ， 因 为 泛 化 可 以 基于 接收 到 的 用 
户 查 询 在 线 进行 。 

此 外 ， 可 以 把 自动 分 析 加 入 这 种 归纳 过 程 ， 自 动 过 滤 不 相关 或 不 重要 的 属性 。 然 而 ， 由 
于 面向 属性 的 归纳 自动 把 数据 泛 化 到 较 高 层 ， 因 此 它 不 能 有 效 地 支持 下 钼 到 比 被 泛 化 的 关系 
提供 的 抽象 层 还 深 的 层 。 集 成 数据 立方 体 技术 与 面向 属性 的 归纳 可 能 平衡 预计 算 和 联机 计 
算 。 当 需要 下 钻 到 比 被 泛 化 的 关系 提供 的 抽象 层 还 深 的 层 时 ， 也 能 支持 快速 的 联机 计算 。 


4.6 小 结 


数据 仓库 是 面向 主题 的 、 和 集成 的 、 时 变 的 和 非 易 失 的 有 组 织 的 数据 集合 ， 支 持 管理 决策 制定 。 有 一 
些 要素 区 别 数据 仓库 与 操作 数据 库 。 由 于 两 种 系统 提供 很 不 相同 的 功能 ， 需 要 不 同类 型 的 数据 ， 因 
此 有 必要 将 数据 仓库 与 操作 数据 库 分 开 维护 。 

数据 仓库 通常 采用 三 层 体系 结构 。 底 层 是 数据 仓库 服务 器 ， 它 通常 是 关系 数据 库 系 统 。 中 间 层 是 
OLAP 服务 器 。 顶 层 是 客户 ,包括 查询 和 报表 工具 。 

数据 仓库 包含 加 载 和 刷新 仓库 的 后 端 工具 和 实用 程序 。 这 些 涵盖 了 数据 提取 、 数 据 清理 、 数 据 变 
换 、 装 人 、 刷 新 和 仓库 管理 。 

数据 仓库 元 数据 是 定义 仓库 对 象 的 数据 。 元 数据 库 提供 了 关于 仓库 结构 ， 数 据 历 史 ， 汇 总 使 用 的 算 
法 ， 从 源 数据 到 仓库 形式 的 映射 ， 系 统 性 能 ， 商 务 术语 和 问题 等 细节 。 

通常 ， 多 维 数 据 模型 用 于 企业 数据 仓库 和 部 门 数 据 集 市 的 设计 。 这 种 模型 采用 星 形 模式 、 雪 花 模 
式 或 事实 星座 模式 。 多 维 数据 模型 的 核心 是 数据 立方 体 。 数 据 立方 体 由 大 量 事实 (或 度量 ) 和 许 
多 维 组 成 。 维 是 一 个 组 织 想 要 记录 的 实体 或 透视 ， 本 质 上 是 分 层 的 。 

数据 立方 体 由 方 体 的 格 组 成 ， 每 个 方 体 对 应 于 给 定 多 维 数据 的 一 个 不 同 级 别 的 汇总 。 

。 概念 分 层 将 属性 或 维 的 值 组 织 成 渐进 的 抽象 层 。 概 念 分 层 对 于 多 抽象 层 上 的 挖掘 是 有 用 的 。 
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© 联机 分 析 处 理 (OLAP) 可 以 在 使 用 多 维 数据 模型 的 数据 仓库 或 数据 集 市 上 进行 。 典 型 的 OLAP 操 


作 包 括 上 卷 、 下 钻 〈 钻 过 、 钻 透 ) 、 切 片 和 切 块 、 转 轴 (旋转 ) ， 以 及 统计 操作 ， 如 秩 评定 、 计 算 
移动 平均 值 和 增长 率 等 。 使 用 数据 立方 体 结构 ，OLAP 操作 可 以 有 效 地 实现 。 


。 数据 仓库 用 于 信息 处 理 〈 查 询 和 报表 ) 、 分 析 处 理 (允许 用 户 通过 OLAP 操作 在 汇总 数据 和 细节 数 


据 之 间 导 航 ) 和 数据 挖 握 (支持 知识 发 现 ) 。 基 于 OLAP 的 数据 挖掘 称 为 多 维 数据 挖掘 ( 又 称 探索 
式 多 维 数据 挖 据 、 联 机 分 析 挖 气 或 OLAM) 。 它 强调 OLAP 挖掘 的 交互 式 和 探测 式 特点 。 


© OLAP 服务 器 可 以 是 关系 OLAP (ROLAP) 、 多 维 OLAP (MOLAP) 或 混合 OLAP (HOLAP), RO- 


LAP 服务 器 使 用 扩充 的 关系 DBMS， 把 多 维 数据 上 的 OLAP 操作 映射 成 标准 的 关系 操作 。MOLAP 服 
务 器 直接 把 多 维 数据 视图 映射 到 数组 结构 。HOLAP 是 ROLAP 和 MOLAP 的 结合 。 例 如 ， 它 可 以 对 
历史 数据 使 用 ROLAP， 而 将 频繁 访问 的 数据 放 在 一 个 分 离 的 MOLAP 存储 中 。 


。 完全 物化 是 指 计算 定义 数据 立方 体 的 格 中 所 有 的 方 体 ， 通 常 需要 过 多 的 存储 空间 ， 特 别 是 当 维 数 和 


相关 联 的 概念 分 层 增长 时 。 该 问题 称 为 维 灾难 。 作 为 一 种 替代 方案 ， 部 分 物化 是 选择 性 计算 格 中 的 
方 体 子 集 或 子 立方 体 。 例 如 ， 冰 山 立 方 体 是 一 个 数据 立方 体 ， 它 只 存放 其 聚集 值 (例如 ，count) 
大 于 某 个 最 小 支持 度 阔 值 的 立方 体 单元 。 


。 使 用 索引 技术 ，OLAP 查询 处 理 可 以 更 有 效 地 进行 。 在 位 图 索引 中 , .每 个 属性 都 有 它 自 己 的 位 图 索 


引 表 。 位 图 索引 把 连接 、 聚 集 和 比较 操作 归结 成 位 算术 运算 。 连 接 索 引 登 记 来 自 两 个 或 多 个 关系 的 
可 连接 行 ， 降 低 了 OLAP 连接 操作 的 代价 。 位 图 连接 索引 结合 位 图 和 连接 索引 方法 ， 可 以 进一步 加 
快 OLAP 查询 处 理 。 


。 数据 泛 化 是 一 个 过 程 ， 它 把 数据 库 中 大 量 任务 相关 的 数据 ， 从 相对 较 低 的 概念 层 抽象 到 较 高 的 概念 


层 。 数 据 泛 化 方法 包括 基于 数据 立方 体 的 数据 聚集 和 面向 属性 的 归纳 。 概 念 描述 是 描述 性 数据 控 气 
的 最 基本 形式 。 它 以 简洁 汇总 的 形式 描述 给 定 的 任务 相关 数据 集 ， 提 供 数据 的 有 趣 的 一 般 性 质 。 概 
T (RX) 描述 由 特征 和 比较 〈 或 区 分 ) 组 成 。 前 者 汇总 并 描述 称 做 目标 类 的 数据 集 ， 而 后 者 汇 
总 并 将 一 个 称 做 目标 类 数据 集 与 称 做 对 比 类 的 其 他 数据 集 相 区 别 。 


。 概念 特征 化 可 以 使 用 数据 立方 体 (基于 OLAP) 的 方法 和 面向 属性 的 归纳 方法 实现 。 这 些 都 是 基 


于 属性 或 基于 维 的 证 化 的 方法 。 面 向 属性 归纳 方法 包含 以 下 技术 : 数据 聚焦 、 通 过 属性 删除 或 属性 
泛 化 对 数据 泛 化 、 计 数 和 聚集 值 累 计 、 属 性 泛 化 控制 和 泛 化 数据 可 视 化 。 


。 概念 比较 可 以 用 类 似 于 概念 特征 的 方式 ， 使 用 面向 属性 归纳 或 数据 立方 体 方法 进行 。 可 以 量化 地 比 


较 和 对 比 从 目标 类 和 对 比 类 泛 化 的 元 组 。 


习题 
试 述 对 于 多 个 异 构 信息 源 的 集成 ， 为 什么 许多 公司 更 愿意 使 用 更 新 驱动 的 方法 (构造 和 使 用 数据 仓 
库 ) ， 而 不 是 查询 驱动 的 方法 〈 使 用 包装 程序 和 集成 程序 ) 。 描 述 一 些 查询 驱动 方法 比 更 新 驱动 方法 
更 可 取 的 情况 。 
简略 比较 以 下 概念 ， 可 以 用 例子 解释 你 的 观点 。 
(a) 雪花 模式 、 事 实 星座 、 星 网 查询 模型 。 
(b) 数据 清理 、 数 据 变换 、 刷 新 。 
(c) 发 现 驱 动 的 立方 体 、 多 特征 立方 体 、 虚 拟 仓库 。 
假定 数据 仓库 包含 三 个 维 一 一 time 、doctor 和 patien, WARE H 
生 对 一 位 病人 的 一 次 诊治 的 费用 。 
(a) 列举 三 种 流行 的 数据 仓库 建 模 模式 。 
(b) 使 用 (a) 中 列举 的 模式 之 一 ， 画 出 上 面 数据 仓库 的 模式 图 。 
(c) 由 基本 方 体 [day，doctor，patient] 开始 ， 为 列 出 2010 年 每 位 医生 的 收费 总 数 ， 应 当 执 行 哪些 
OLAP 操作 ? 
(d) 为 得 到 同样 的 结果 ， 写 一 个 SQL 查询 。 假 定数 据 存 放 在 关系 数据 库 中 ， 其 模式 为 fee ( day， 


month, year, doctor, hospital, patient, count, charge) 。 





count 和 charge, $H, charge 是 医 
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假设 Big_University 的 数据 仓库 包含 如 下 4 个 维 student. course, semester 和 instructor, 2 个 度量 一 一 

count 和 ovg_grade。 在 最 低 的 概念 层 ( 例 如 ， 对 于 给 定 的 学 生 、 课 程 、 学 期 和 教师 的 组 合 ) EE ang 

grade 存放 学 生 的 实际 课程 成 绩 。 在 较 高 的 概念 层 ，avg_grade 存放 给 定 组 合 的 平均 成 绩 。 

(a) 为 该 数据 仓库 画 出 雪花 模式 图 。 

(b) 由 基本 方 体 [student，course，semester instructor] 开始 ， 为 列 出 Big_University 每 个 学 生 的 CS 课 
程 的 平均 成 绩 ， 应 当 使 用 哪些 OLAP 操作 (如 由 学 期 上 卷 到 学 年 )。 

(c) 如 果 每 维 有 5 层 (包括 all), 4 “student < major < status < university <al1L”， 该 数据 立方 体 包含 
多 少 个 方 体 ( 包 括 基 本 方 体 和 项 点 方 体 )? 

假定 数据 仓库 包含 4 个 维 一 一 date 、spectator、location 和 game, 2 个 度量 count 和 charge， 其 中 

charge 是 观众 在 给 定 的 日 期 观看 节目 的 费用 。 观 众 可 以 是 学 生 、 成 年 人 或 老年 人 ， 每 类 观众 有 不 同 的 

收费 标准 。 

(a) 画 出 该 数据 仓库 的 是 形 模式 图 。 

(b) 由 基本 方 体 [date, spectator, location, game] 开始 ， 为 列 出 2010 年 学 生 观 众 在 GM_Place 的 总 
付费 ， 应 当 执行 哪些 OLAP 操作 ? 

(c) 对 于 数据 仓库 ， 位 图 索引 是 有 用 的 。 以 该 数据 立方 体 为 例 ， 简 略 讨论 使 用 位 图 索引 结构 的 优点 
和 问题 。 

数据 仓库 可 以 用 星 形 模式 或 雪花 模式 建 模 。 简 略 讨论 这 两 种 模式 的 相似 点 和 不 同 点 ， 然 后 分 析 它 们 的 

相对 优 缺 点 。 哪 种 模式 更 实用 ? 给 出 你 的 观点 并 陈述 理由 。 

为 地 区 气象 局 设计 一 个 数据 仓库 。 气 象 局 大 约 有 1000 个 观测 点 ， 散 布 在 该 地 区 的 陆地 和 海洋 ， 收 集 

基本 气象 数据 ， 包 括 每 小 时 的 气压 、 温 度 、 降 水 量 。 所 有 的 数据 都 送 到 中 心 站 ,那里 已 收集 了 这 种 数 

据 长 达 十 余年 。 你 的 设计 应 当 有 利于 有 效 的 查询 和 联机 分 析 处 理 ， 以 及 有 效 地 导出 多 维 空间 的 一 般 天 

气 模式 。 

数据 仓库 实现 的 流行 方法 是 构造 一 个 称 为 数据 立方 体 的 多 维 数 据 库 。 不 幸 的 是 ， 这 常常 产生 大 的 、 稀 

朴 的 多 维 矩阵 。 

(a) 给 出 一 个 例子 ,解释 这 种 大 型 稀 下 数 据 立 方 体 。 

(b) 设计 一 种 实现 方法 ， 可 以 很 好 地 克服 稀 草 矩阵 问题 。 注 意 ， 你 需要 详细 解释 你 的 数据 结构 ， 讨 
论 空 间 需 求 ， 以 及 如 何 从 你 的 结构 中 提取 数据 。 

(c) 修改 你 在 (b) 中 的 设计 ， 以 便 处 理 增 量 数据 更 新 。 给 出 你 的 设计 理由 。 

关于 数据 立方 体 度量 计算 .: 

(a) 根据 计算 数据 立方 体 所 用 的 聚集 函数 ， 列 出 度量 的 三 种 类 型 。 

b) 对 于 具有 三 个 维 time, location 和 product 的 数据 立方 体 ， 函 数 variance (方差 ) 属于 哪 一 类 ? 如 
果 立 方 体 被 分 割 成 一 些 块 ， 说 明 如 何 计算 它 。 


提示 计算 variance 函数 的 公式 是 : y Y (x, - 习 ? ， 其 中 ,7 是 这 些 x 的 平均 值 。 
(O 假定 函数 是 “最 高 的 10 个 销售 额 "。 讨 论 如 何在 数据 立方 体 中 有 效 地 计算 该 度量 。 





4 10 假设 公司 想 设 计 一 个 数据 仓库 ， 以 便于 以 联机 分 析 处 理 方式 分 析 移动 车 辆 。 公 司 以 如 下 格式 记录 大 


量 汽车 运动 数据 : (AutoID, location, speed, time), EH Auto_ID 每 个 代表 一 个 车 辆 ， 涉 及 诸如 ve- 

hicle_category 、driver_category 等 信息 ; 每 个 location 涉及 城市 的 一 条 街道 。 假定 有 一 个 该 城市 的 街 

道 图 。 

(a) 设计 一 个 数据 仓库 ， 以 便于 多 维 空间 的 有 效 联机 分 析 处 理 。 

(b) 运动 数据 可 能 包含 噪声 。 讨 论 如 何 开发 一 种 方法 ， 自 动 地 发 现 该 数据 库 中 可 能 被 错误 地 记录 的 
数据 记录 。 

(c) 运动 数据 可 能 是 稀疏 的 。 讨 论 如 何 开发 一 种 方法 ， 尽 管 数据 稀疏 ， 但 是 仍然 能 够 构造 可 靠 的 数 

据 仓 库 。 

如 果 你 想 在 特定 的 时 间 开 车 从 A 到 B， 讨 论 系统 如 何 使 用 仓库 中 的 数据 ， 设 计 一 条 快速 的 

路 线 。 


(d 
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射频 识别 (RFID) 通常 用 来 跟踪 对 象 运动 ， 进 行 库存 控制 。RFID 阅读 器 可 以 在 任意 预定 的 时 间 近 
距离 成 功 地 读 取 RFID 标签 。 假 设 公 司 想 设计 一 个 数据 仓库 , 便于 以 联机 分 析 处 理 方式 分 析 具 有 
RFID 标签 的 对 象 。 假 设 公 司 以 格式 (RFID，at_locaotion，time) 记录 大 量 RFID RH, 并且 还 有 一 些 


119 


关于 携带 RFID 标签 的 对 象 的 信息 ， 例 如 (RFID, product_name, product_category, producer, date_ 


produced, price) 。 

(a) 设计 一 个 数据 仓库 ， 以 方便 这 类 数据 的 有 效 登 记 和 联机 分 析 处 理 。 

(b) RFID 数据 可 能 包含 大 量 宛 余 信 息 。 讨 论 一 种 方法 ， 它 在 数据 登 人 该 RFID 数据 仓库 时 ， 最 大 限 
度 减 少 元 余 。 

(c) RFID 数据 可 能 包含 大 量 噪声 ， 如 遗漏 登记 和 ID 误 读 。 讨 论 一 种 有 效 清 理 RFID 数据 仓库 中 噪 
声 的 方法 。 

(d) 你 可 能 想 进行 联机 分 析 处 理 ， 按 月 、 品 牌 和 价格 区 间 确 定 有 多 少 台 电视 机 从 洛杉矶 港 运 到 伊利 
诺 斯 州 Champaign 的 BestBuy。 如 果 你 在 该 数据 仓库 中 存放 了 这 种 RFID 数据 ， 概 述 如 何 有 效 地 
做 这 件 事 。 

(e) 如 果 一 位 顾客 送 回 一 桶 牛奶 ， 并 抱怨 说 在 过 期 之 前 它 已 经 变质 ， 讨 论 如 何在 数据 仓库 中 调查 这 
一 情况 ， 找 出 问题 是 出 在 运输 还 是 储存 上 。 

在 许多 应 用 中 ， 新 的 数据 集 递增 地 添加 到 已 有 的 大 型 数据 集中 。 因 此 ， 一 个 重要 的 考虑 是 ,度量 是 

和 否 能 够 以 增 量 方式 有 效 地 计算 。 以 计数 、 标 准 差 和 中 位 数 为 例 ， 说 明 分 布 或 代数 度量 有 利于 有 效 的 

增 量 计算 ， 而 整体 度量 不 行 。 

假设 你 需要 在 数据 立方 体 中 记录 三 种 度量 : min () average () 和 median () 。 倘 若 数 据 立 方 体 允 许 

递增 地 删除 数据 ( 即 每 次 一 小 部 分 ) ， 为 每 种 度量 设计 有 效 的 计算 和 存储 方法 。 

在 数据 仓库 技术 中 ， 多 维 视图 可 以 用 关系 数据 库 技术 (ROLAP) 、 或 多 维 数据 库 技 术 (MOLAP) 或 

混合 数据 库 技术 (HOLAP) 实现 。 

(a) 简要 描述 每 种 实现 技术 。 

(b) 对 每 种 技术 ， 解 释 如 下 函数 如 何 实现 : 

i 数据 仓库 的 产生 (TERE) 
ii, 上 卷 

ii. FH 

iv. 增 量 更 新 

(c) 你 喜欢 哪 种 实现 技术 ? 为 什么 ? 

假设 数据 仓库 包含 20 个 维 ， 每 个 维 有 5 级 粒度 。 

(a) 用 户 感 兴趣 的 主要 是 4 个 特定 的 维 ， 每 维 有 3 个 上 卷 和 下 钻 频繁 访问 的 层 。 如 何 设计 数据 立方 
体 结构 ， 能 有 效 地 对 此 予以 支持 ? 

(b) 用 户 时 常 想 从 一 两 个 特定 的 维 钼 迁 数 据 立方 体 ， 到 原始 数据 。 如 何 支持 这 一 特征 ? 

数据 立方 体 C 具 有 个 维 。 每 个 维 在 基本 方 体 中 恰 有 p 个 不 同 值 。 假 定 没有 与 这 些 维 相关 联 的 概念 

分 层 。 

(a) 基本 方 体 单元 的 最 大 个 数 可 能 是 多 少 ? 

Cb) 基本 方 体 单元 的 最 小 个 数 可 能 是 多 少 ? 

Cc) 数据 立方 体 C 的 单元 (包括 基本 单元 和 聚集 单元 ) 的 最 大 个 数 是 多 少 ? 

Cd) 数据 立方 体 C 的 单元 的 最 小 个 数 是 多 少 ? 

三 种 主要 的 数据 仓库 应 用 即 信 息 处 理 、 分 析 处 理 和 数据 挖 据 的 区 别 是 什么 ”讨论 OLAP HE 

(OLAM) 的 动机 。 


4.8 文献 注释 


有 大 量 关 于 数据 仓库 和 OLAP 技术 的 引 论 性 教材 ， 例 如 Kimball, Ross, Thornthwaite 等 [KRTM08 ] ， 


Imhoff, Galemmo 和 Geiger[ IGG03 ] ，Inmon[ Inm96 ] Chaudhuri 和 Dayal[ CD97] 给 出 了 数据 仓库 和 OLAP H 
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术 的 综述 。 一 组 关于 物化 视图 和 数据 仓库 实现 的 研究 论文 收集 在 Gupta 和 Mumick[ GM99] 的 Materialized 
Views: Techniques, Implementations, and Applications 中 。 

PRR SCTE AR BEAN EBT CA BB 20 世纪 60 年 代 。 然 而 ， 为 多 维 数据 分 析 构造 大 型 数据 仓库 的 提议 归 
功 于 Codd[ CCS93 ] ， 他 创造 了 术语 OLAP 表示 联机 分 析 处 理 。OLAP 委员 会 成 立 于 1995 年 。Widom[ Wid95 ] 
列举 了 数据 仓库 的 一 些 研究 问题 。Kimball 和 Ross[ KRO2] 总 结 了 SQL 在 支持 商业 界 常 见 的 比较 方面 的 不 
足 ， 并 给 出 了 一 组 需要 数据 仓库 和 OLAP 技术 的 应 用 实例 。 关 于 OLAP 系统 与 统计 数据 库 比 较 的 综述 见 
Shoshani[ Sho97 ] 。 

Gray 等 [GCB*97] 提出 将 data cube 作为 关系 聚集 操作 符 ， 推 广 分 组 、 交 叉 表 和 小 计 。Harinarayan 、 
Rajaraman 和 Ullman [HRU96] 提出 一 种 贪心 算法 ， 用 于 数据 立方 体 计算 中 的 方 体 部 分 物化 。 数 据 立 方 体 
的 计算 方法 已 经 被 许多 研究 考察 ， 如 Sarawagi 和 Stonebraker[ S894] , Agarwal  [ AAD*96], Zhao, Desh- 
pande 和 Naughton[ ZDN97 ] Ross 和 Srivastava[ RS97], Beyer 和 Ramakrishnan [ BR99], Han, Pei, Dong 和 
Wang[ HPDWO1], Xin, Han, Li 和 Wah[ XHLW03] 。 这 些 方法 将 在 第 5 章 深入 讨论 。 

冰山 查询 在 Fang, Shivakumar, Garcia-Molina 等 [FSGM* 98] 中 首次 引入 。 使 用 连接 索引 来 加 快 关系 
查询 处 理由 Valduriez[ Val87] čih, O’ Neil 和 Graefe[ 0G95] 提出 位 图 连接 索引 方法 ， 以 加 快 基 于 OLAP 
的 查询 处 理 。 位 映射 和 其 他 非 传统 索引 技术 的 性 能 讨论 在 0，Neil 和 Quass [0Q97] 中 给 出 。 

关于 为 有 效 的 OLAP 查询 处 理 物化 方 体 选择 的 工作 ， 参 见 如 Chaudhuri 和 Dayal[ CD97], Harinarayan , 
Rajaraman 和 Ullman [ HRU96 ] ， 以 及 Sristava 等 【SDJL96] 。 立 方 体 大 小 估计 的 方法 可 以 在 Deshpande 等 
[DNR*97], Ross 和 Srivastava [ RS97] ， 以 及 Beyer 和 Ramakrishnan [ BR99] 中 找到 。Agrawal、 Gupta 和 
Sarawagi| AGS97] 提出 了 多 维 数据 库 建 模 的 操作 。 通 过 联机 聚集 快速 回答 查询 的 方法 在 Hellerstein, Haas 
和 Wang[ HHW97] Hellerstein 等 [ HAC* 99] 中 介绍 。 估 计 最 高 N 个 查询 的 技术 由 Carey 和 Kossman 
[ CK98 ] Donjerkovic 和 Ramakrishnan[ DR99] 提出 。 关 于 智能 OLAP 和 数据 立方 体 的 发 现 驱动 的 探查 在 第 
5 章 的 文献 注释 中 提供 。 
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数据 仓库 系统 在 各 种 粒度 为 多 维 数据 的 交互 分 析 提 供 OLAP CRH., OLAP 工具 通常 使 用 
数据 立方 体 和 多 维 数据 模型 ， 对 汇总 数据 提供 灵活 的 访问 。 例 如 ， 数 据 立 方 体能 够 存放 多 个 
数据 维 (如 商品 、 地 区 和 顾客 ) 上 的 预计 算 的 度量 (如 count () 和 total_sales () ) 。 用 
户 可 以 提出 数据 上 的 OLAP 查询 。 他 们 也 可 以 以 多 维 方式 ， 通 过 诸如 下 钻 〈 观 看 更 特定 的 数 
据 ， 如 每 个 城市 的 总 销售 ) 或 上 卷 (在 更 一 般 的 泛 化 层 观看 数据 ， 如 每 个 国家 的 总 销售 ) 
这 样 的 OLAP 操作 来 探查 数据 。 

尽管 数据 立方 体 概念 最 初 是 用 于 OLAP 的 ， 但 是 对 于 数据 挖掘 它 也 有 用 。 多 维 数据 挖掘 
是 一 种 数据 挖掘 方法 ， 它 把 基于 OLAP 的 数据 分 析 与 知识 发 现 技术 集成 在 一 起 。 多 维 数据 控 
气 又 称 做 探索 式 多 维 数据 挖 气 和 联机 分 析 挖 气 (OLAM)。 它 通过 探查 多 维 空间 中 的 数据 来 
搜索 有 趣 的 模式 。 这 赋予 用 户 动态 地 关注 感 兴趣 的 任何 维 子 集 的 自主 权 。 用 户 可 以 交互 地 下 
钻 或 上 卷 到 各 抽象 层 ， 发 现 分 类 模型 、 聚 类 、 预 测 规则 和 离 群 点 。 

本 章 ， 我 们 关注 数据 立方 体 技术 。 特 别 地 ， 我 们 研究 数据 立方 体 的 计算 方法 和 多 维 数据 
分 析 方 法 。 数 据 立 方 体 (或 数据 立方 体 的 一 部 分 ) 的 预计 算 使 得 我 们 能 够 快速 访问 汇总 数 
据 。 考 虑 到 大 部 分 数据 集 的 高 维 性 ， 多 维 分 析 可 能 遇 到 性 能 瓶颈 。 因 此 ， 研 究 数 据 立方 体 的 
计算 技术 是 很 重要 的 。 幸 运 的 是 ， 数 据 立方 体 技术 为 立方 体 计算 提供 了 许多 有 效 的 、 可 伸缩 
的 方法 。 研 究 这 些 方法 也 有 助 于 我 们 理解 并 为 其 他 数据 挖掘 任务 ， 如 频繁 模式 发 现 (第 6 章 
和 第 7 章 ) ， 开 发 可 伸缩 的 方法 。 

我 们 从 立方 体 计算 的 基本 概念 (5. 1 节 ) 开始 ， 概 述 把 数据 立方 体 看 做 方 体 的 格 的 概 
念 ， 介 绍 立方 体 物化 的 基本 形式 ， 并 给 出 立方 体 计算 的 一 般 策略 。 接 下 来 ，5.2 节 深 入 考察 
数据 立方 体 计算 的 具体 方法 。 我 们 研究 完全 物化 ( 即 表示 数据 立方 体 的 所 有 方 体 都 预计 算 ， 
从 而 为 使 用 做 好 准备 ) 和 部 分 方 体 物化 ( 比如 ， 只 预计 算数 据 立方 体 的 更 “有 用 ”部 分 )， 
详细 介绍 一 种 完全 立方 体 计算 的 多 路 数组 聚集 方法 。 部 分 立方 体 计算 的 方法 ， 包括 BUC, 
Star-Cubing 和 立方 体外 党 片段 的 使 用 ， 也 在 该 节 讨 论 。 

在 5.3 节 中 ， 我 们 研究 基于 立方 体 的 查询 处 理 。 所 介绍 的 技术 建立 在 5. 2 节 提 供 的 立方 
体 计算 的 标准 方法 之 上 。 你 将 学 习 用 于 样本 数据 (如 概览 数据 ， 它 代表 感 兴 趣 的 目标 数据 
总 体 的 样本 或 子 集 ) 上 OLAP 查询 回答 的 抽样 立方 体 。 此 外 ， 你 还 将 学 习 如 何 计算 用 于 大 型 
关系 数据 库 的 有 效 的 top-k (HEF) 查询 处 理 的 排序 立方 体 。 

在 5.4 节 中 ， 我 们 介绍 使 用 数据 立方 体 进行 多 维 数据 分 析 的 各 种 方法 。 预 测 立方 体 的 引 
进 有 利于 多 维 空间 的 预测 建 模 。 我 们 讨论 多 特征 立方 体 ， 它 计算 涉及 多 粒度 上 多 个 依赖 聚集 
的 复杂 查询 。 你 还 将 学 习 立 方 体 空间 基于 异常 的 发 现 驱动 的 探查 ， 那 里 ， 显 示 可 视 立 提示 ， 
指示 在 所 有 聚集 层 发 现 的 数据 异常 ， 从 而 指导 用 户 的 数据 分 析 过 程 。 


51 数据 立方 体 计 算 : 基本 概念 
数据 立方 体 有 利于 多 维 数据 的 联机 分 析 处 理 。“ 但 是 ， 我 们 如 何 提前 计算 立方 体 ， 使 得 
它们 在 查询 处 理 时 唾 手 可 得 、 容 易 使 用 ?” 本 节 把 完全 立方 体 物化 〈 即 预计 算 ) 与 部 分 立方 
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体 物化 的 各 种 策略 进行 比较 。 为 完整 起 见 ， 我 们 首先 回顾 涉及 数据 立方 体 的 基本 术语 。 我 们 
还 将 引进 立方 体 单元 的 概念 ， 这 对 于 介绍 数据 立方 体 计算 方法 是 有 用 的 。 


5.1.1 立方 体 物 化 : 完全 立方 体 、 冰 山 立 方 体 、 闭 立方 体 和 立方 体外 壳 


图 5. 1 PIRA, B, CARRERE M 的 3-D 数据 立 all (顶点 方 体 ) 
方 体 。 通 常 使 用 的 度量 包括 count () 、sum () 、min () 、 
max () 和 total _sales ()。 数 据 立方 体 是 方 体 的 格 , 每 4 B C 
个 方 体 代表 一 个 group-by。 这 里 ，4BC 是 基本 方 体 ， 包含 | 二 一 一 一 | 
所 有 3 SE, REEE M 对 3 个 维 的 所 有 可 能 组 合计 算 。 5 ra Bc 


基本 方 体 是 数据 立方 体 中 泛 化 程度 最 低 的 方 体 。 泛 化 程度 
最 高 的 方 体 是 顶点 方 体 ， 通 常用 al 表示 。 它 包含 一 个 值 ， 


对 于 存放 在 基本 方 体 中 的 所 有 元 组 聚集 度量 MM。 为 了 在 数 ABC (基本 方 体 ) 
据 立 方 体 中 下 外 ， 我 们 从 顶点 方 体 沿 方 体 的 格 向 下 移动 。 图 5.1 方 体 的 格 ， 形 成 以 4 有 和 
对 于 上 卷 ， 我 们 从 基本 方 体 向 上 移动 。 在 本 章 的 讨论 中 ， C 为 维 的 某 聚 集 度量 M 的 
我 们 总 是 使 用 术语 数据 立方 体 表示 方 体 的 格 ， 而 不 是 单个 3-D 数 据 立 方 体 

方 体 。 


基本 方 体 的 单元 是 基本 单元 。 非 基本 方 体 的 单元 是 聚集 单元 。 素 集 单元 在 一 个 或 多 个 维 
上 聚集 ， 其 中 每 个 聚集 维 用 单元 记号 中 的 “ * ”指示 。 假 设 我 们 有 一 个 n 维 数据 立方 体 。 
Qa=(a, qs,，…，as，measures) 是 一 个 单元 ， 取 自 构 成 数据 立方 体 的 一 个 方 体 。 如 果 
lai, a, “+, a,} PHA mman) 个 值 不 是 “*”， 则 我 们 说 a 是 m 维 单元 〈 即 取 自 一 
个 m 维 方 体 )。 如 果 man, Wa 是 基本 单元 ; 否则 ( 即 m <n) 它 是 聚集 单元 。 

例 5.1 基本 单元 和 聚集 单元 。 考 虑 一 个 数据 立方 体 ， 它 包含 维 month. city, customer_ 
group 和 一 个 度量 sales, (Jan, +, *, 2800) 和 (+, Chicago, *, 1200) 都 是 1-D 单 
Ju, (Jan, *, Business, 150) 是 2-D 单元 ， 而 〈Jon， Chicago, Business, 45) 是 3-D % 
元 。 这 里 ， 所 有 的 基本 单元 都 是 3-D 单元 , 而 1-D 和 2-D 单元 都 是 聚集 单元 。 E 

单元 之 间 可 能 存在 祖先 -后 代 联 系 。 在 n 维 数据 立方 体 中 ,i-D 单元 a= (ol ，om ，…， 
a,, measures,) 是 j-D JL b=(b,, b,, +, b,, measures,) 的 祖先 ， 而 5 是 a 的 后 代 ， 当 
且 仅 当 (1)i<j, 并 且 (2) 对 于 1<k<n， 只 要 as 头 *， 就 有 a,=b,. FHM, a Æ b 的 父 
母 ， 而 是 a 的 子女 ， 当 且 仅 当 j =i+1。 

例 5.2 祖先 和 后 代 单元 。 对 于 例 5.1, 1-D 单 元 a=(Jan,， *, x ，2800) 和 2-D 单 
元 6=(Jan，* Business, 150) 是 3-D 单元 c = (Jan, Chicago, Business, 45) 的 祖先 ; c 
是 a 和 4b 的 后 代 ; b 是 c 的 父母 ， 而 c 是 5 的 一 个 子女 。 a 

为 了 确保 快速 OLAP， 有 时 希望 预计 算 完全 立方 体 〈 即 给 定数 据 立 方 体 的 所 有 方 体 的 所 
有 单元 ) 。 一 种 计算 完全 立方 体 的 方法 在 5. 2. 1 节 给 出 。 然 而 ， 完 全 立方 体 的 计算 复杂 度 是 
维 数 的 指数 。 即 n 维 数据 立方 体 包含 2" 个 方 体 。 如 果 考 虑 每 个 维 的 概念 分 层 ， 那 么 方 体 的 
个 数 更 多 ” 。 此 外 ， 每 个 方 体 的 大 小 依赖 于 它 的 诸 维 的 基数 。 这 样 ， 预计 算 完 全 立方 体 可 能 
需要 海量 空间 ， 常 常 超过 内 存 的 容量 。 

尽管 如 此 ， 完 全 立方 体 计算 的 算法 仍然 是 重要 的 。 单 个 方 体 可 以 存放 在 辅助 存储 器 上 ， 
在 需要 时 访问 。 或者， 可 以 使 用 这 样 的 算法 计算 较 小 的 立方 体 ,包含 给 定 维 集合 的 一 个 子 





O 4.4.1 节 中 的 (4.1) 式 给 出 了 数据 立方 体 中 方 体 的 总 数 ， 其 中 每 个 维 都 有 相关 联 的 概念 分 层 。 
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集 ， 或 者 某 些 维 的 可 能 值 的 一 个 较 小 的 值 域 。 在 这 些 情况 下 ， 较 小 的 立方 体 是 给 定 维 子 集 和 
维 值 的 完全 立方 体 。 透 彻 地 理解 完全 立方 体 的 计算 方法 有 助 于 我 们 开发 计算 部 分 立方 体 的 有 
效 方法 。 因 此 ， 重 要 的 是 探索 计算 数据 立方 体 的 所 有 方 体 ( 即 完全 物化 ) 的 可 伸缩 方法 。 
这 些 方法 必须 考虑 可 用 于 计算 方 体 的 内 存 容 量 的 限制 、 所 计算 的 数据 立方 体 的 总 体 大 小 ， 以 
及 计算 所 需要 的 时 间 。 

数据 立方 体 的 部 分 物化 提供 了 存储 空间 和 OLAP 响应 时 间 之 间 的 有 趣 折 中 。 不 是 计算 完 
全 立方 体 ， 而 是 计算 数据 立方 体 的 方 体 的 一 个 子 集 ， 或 者 计算 由 各 种 方 体 的 单元 子 集 组 成 的 
子 立 方 体 。 

实际 上 ， 数 据 分 析 师 可 能 对 方 体 的 许多 单元 都 不 太 感 兴趣 或 不 感 兴趣 。 回 想 一 下 ， 完 
全 立方 体 的 每 个 单元 记录 的 都 是 聚集 值 ， 如 count 或 sum。 对 于 方 体 中 的 许多 单元 而 言 ， 
该 度量 值 将 为 0。 当 相对 于 存放 在 方 体 中 的 非 零 值 元 组 的 数量 ， 方 体 维 的 基数 的 乘积 很 
大 时 ， 则 称 该 方 体 是 稀疏 的 。 如 果 一 个 立方 体 包 含 许多 稀 朴 方 体 ， 则 称 该 立方 体 是 稀 
Hit 29 o 

在 许多 情况 下 ， 相 当 多 的 立方 体 空间 可 能 被 大 量具 有 很 低 度量 值 的 单元 所 占据 。 这 是 因 
为 立方 体 单元 在 多 维 空间 中 的 分 布 常常 是 相当 稀 朴 的 。 例 如 ， 一 位 顾客 一 次 在 一 个 商店 可 能 
只 买 少量 商品 。 这 样 的 事件 将 产生 少量 非 空 单元 ， 而 剩 下 其 他 大 部 分 立方 体 单元 为 空 。 在 这 
种 情况 下 ， 仅 物化 其 度量 值 大 于 某 个 最 小 阔 值 的 方 体 单元 (group-by) 是 有 用 的 。 比 如 ,在 
sales( 销售 ) 数据 立方 体 中 ， 可 能 只 希望 物化 其 count >10( 即 对 于 给 定 的 维 组 合 单元 而 言 ， 
至 少 有 10 个 元 组 ) 的 方 体 单元 , 或 者 物化 代表 sales > $100 的 单元 。 这 不 仅 能 够 节省 处 理 
时 间 和 磁盘 空间 ， 而 且 还 能 够 导致 更 聚焦 的 分 析 。 对 于 未 来 的 分 析 ， 不 能 满足 阔 值 的 单元 可 
能 是 不 重要 的 。 

这 种 部 分 物化 的 立方 体 称 为 冰山 立方 体 (iceberg cube)。 这 种 最 小 阅 值 称 为 最 小 支持 度 
阅 值 ， 或 简称 为 最 小 支持 度 (min_sup) 。 只 物化 数据 立方 体 单元 的 一 小 部 分 ， 结 果 看 上 去 像 
“露出 水 面 的 冰山 项” ， 其 中 “冰山 ”是 包括 所 有 单元 的 完全 立方 体 。 冰 山 立 方 体 可 以 用 
SQL 查询 说 明 ， 如 下 面 的 例子 所 示 。 

例 5. 3 冰山 立方 体 。 


compute cube sales_iceberg as 

select month, city, customer_group, count(*) 
from salesInfo 

cube by month, city, customer_group 

having count(*) >= min_sup 


compute cube 语句 说 明 冰 山 立 方 体 sales_iceberg 的 预计 算 ， 使 用 维 month. city, cus- 
tomer_group 和 聚集 度量 count () 。 输 入 元 组 在 关系 salesInfo 中 。cube by 子 句 说 明 对 给 定 维 
的 所 有 可 能 的 子 集 形成 聚集 (一些 group by) 。 如 果 要 计算 完全 立方 体 ， 则 每 个 group by 将 
对 应 数据 立方 体格 中 的 一 个 方 体 。having 子 句 指定 的 约束 称 为 冰山 条 件 ( iceberg condi- 
tion), XE, KUERE count () 。 注 意 ， 这 里 计算 的 冰山 立方 体 可 以 用 来 回答 在 指定 维 
的 任意 组 合 上 分 组 条 件 为 having count( *) > =v (其 中 v=min_sup) 的 分 组 查询 。 不 使 
用 count () ， 冰 山 条 件 可 以 说 明 为 更 复杂 的 度量 ， 如 average () 。 

如 果 省 略 该 例 中 的 having 子 句 ， 则 得 到 完全 立方 体 ， 称 该 立方 体 为 sales_cube。 冰 山 
立方 体 sales_iceberg 排除 了 sales_cube 中 计数 小 于 min_sup 的 单元 。 显 然 ， 如 果 设 置 sales_ice- 
berg 中 的 最 小 支持 度 为 1， 则 结果 立方 体 将 是 完全 立方 体 sales_cube。 a 

一 种 计算 冰山 立方 体 的 朴素 方法 是 ， 首 先 计 算 完 全 立方 体 ， 然 后 前 去 不 满足 冰山 条 件 的 
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单元 。 然 而 ， 这 仍然 可 能 代价 昂贵 , 令 人 望而却步 。 一 种 有 效 的 方法 是 直接 计算 冰山 立方 
体 ， 而 不 计算 完全 立方 体 。5. 2. 2 节 和 5.2.3 节 讨 论 冰 山 立 方 体 计算 的 有 效 方法 。 

引入 冰山 立方 体 将 减轻 计算 数据 立方 体 中 不 重要 聚集 单元 的 负担 。 然 而 ， 仍 然 有 大 量 不 感 
兴趣 的 单元 需要 计算 。 例 如 ， 假设 100 维 的 数据 库 有 2 个 基本 单元 , 记 作 {Ca a, a5, e, 
aiw): 10， (a,, dy, b3, "7, biw): 10} 9 其 中 每 个 单元 的 计数 都 是 10。 如 果 最 小 支持 度 为 
10， 则 需要 计算 和 存储 的 单元 个 数 仍然 多 得 难以 容忍 ， 尽 管 它们 中 的 大 部 分 是 令 人 不 感 兴趣 
的 。 例 如 ， 有 2”-6 个 不 同 的 聚集 单元 ”， 形 如 fC, a, a, =, ag, *):10, =, 
(ai, a3, *, Gy, *, Bq, Ay)? 10, =, (ai, a, @, *, +, *, *):10), (ARE 
中 的 大 部 分 都 不 包含 新 信息 。 如 果 忽 略 可 以 通过 用 + 蔡 换 常 量 值 并 保持 度量 值 不 变 得 到 的 聚集 
单元 ， WRK 3 个 不 同 的 单元 : Ca, a, G3, **, Gg)? 10, (ai, a, by, ++, big)? 10, 
(a), a, *, 0, *)'20}, thet, 762" -4 个 不 同 的 基本 和 聚集 单元 中 ， 只 有 3 个 
实际 提供 有 价值 的 信息 。 

为 了 系统 地 压缩 数据 立方 体 ， 需 要 引 人 闭 履 盖 (closed coverage) 的 概念 。 一 个 单元 c 
是 闭 单元 (closed cell) ， 如 果 不 存在 单元 4， 使 得 d 是 单元 c 的 特殊 化 〈 后 代 ) ( 即 d 通过 
将 c 中 的 “*” 值 用 “ 非 *” 值 替换 得 到 ), HH d 与 具有 相同 的 度量 值 。 闭 立方 体 
(closed cube) 是 一 个 仅 由 闭 单元 组 成 的 数据 立方 体 。 例 如 ， 上 面 导 出 的 3 个 单元 是 数据 集 
Ca, Q2, Az, **", Aig)? 10, (a,, a, by, *, biwo): 10} 的 数据 立方 体 的 3 个 闭 单 元 。 
它们 形成 了 图 5.2 所 示 的 闭 立 方 体 的 格 。 其 他 非 闭 单元 都 可 以 通过 格 中 对 应 的 闭 单元 导出 。 
IRN, “Ca, *, x, o, *)20" TUH “Ca, a, *, =, *):20" Gi, AANE 
是 后 者 的 非 闭 单元 泛 化 。 类 似 地 ,， 有“ Ca, a, b, *, 0e, *)210", 

部 分 物化 的 另 一 种 策略 是 只 预计 算 涉 及 少数 维 (如 3 ~5 个 维 ) 的 方 体 。 这 些 方 体形 成 
对 应 的 数据 立方 体 的 立方 体外 壳 (cube shell), (ays an *, =, *) :20 
在 附加 的 维 组合 上 的 查询 必须 临时 计算 。 例 如 ， 
可 以 预计 算 n 维 数据 立方 体 中 具有 3 个 或 更 少 维 
的 所 有 方 体 ， 产 生 大 小 为 3 的 立方 体外 壳 。 然 
而 ， 这 仍然 导致 需要 计算 大 量 的 方 体 ， 特 别 是 当 
nn 很 大 时 。 或 者 ,可 以 基于 方 体 的 兴趣 度 ， 选 择 
只 预计 算 立 方 体外 壳 的 部 分 或 片段 。5. 2. 4 节 讨 
论 计算 这 种 外 壳 片 段 (shell fragment) 的 方法 ， (ro s Qo) 10 10 
并 考察 如 何 使 用 它们 有 效 地 处 理 OLAP 查询 。 图 5.2 ”形成 闭 立方 体 的 格 的 3 个 闭 单元 


5.1.2 数据 立方 体 计 算 的 一 般 策 略 


基于 5.1.1 节 介 绍 的 不 同类 型 的 立方 体 ， 有 多 种 有 效 计算 数据 立方 体 的 方法 。 一 般 而 
言 ， 有 两 种 基本 数据 结构 用 于 存储 方 体 。 关 系 OLAP (ROLAP) 的 实现 使 用 关系 表 ， 而 多 维 
数组 用 于 多 维 OLAP (MOLAP) 。 尽 管 ROLAP 和 MOLAP 可 能 使 用 不 同 的 立方 体 计算 技术 ， 
但 是 某 些 优化 “技巧 ”可 以 在 不 同 的 数据 表示 之 间 共 享 。 下 面 是 数据 立方 体 有 效 计算 的 一 
般 优化 技术 。 

优化 技术 1: 排序 、 散 列 和 分 组 。 应 当 对 维 属性 使 用 排序 、 散 列 和 分 组 操作 ， 以 便 对 相 
关 元 组 重新 定 序 和 聚 类 。 








O 证 明 留 作 习题 。 
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在 立方 体 计算 中 ， 对 共享 一 组 相同 维 值 的 元 组 〈 或 单元 ) 进行 聚集 。 因 此 ， 重 要 的 是 
利用 排序 、 散 列 和 分 组 操作 对 这 样 的 数据 进行 访问 和 分 组 ， 以 便 有 利于 聚集 的 计算 。 

例如 ， 为 了 按 branch, day 和 item 计算 总 销售 ， 更 有 效 的 方法 是 先 按 branch， 再 按 day 
对 元 组 或 单元 排序 ， 然 后 按 item 名 对 它们 分 组 。 在 大 型 数据 集中 这 些 操 作 的 有 效 实现 已 经 
在 数据 库 研究 领域 广泛 开展 。 这 些 实现 可 以 扩展 到 数据 立方 体 计算 。 

这 些 技术 还 可 以 进一步 扩展 ， 进 行 共 享 排序 ( 当 使 用 基于 排序 的 方法 时 ， 在 多 个 方 体 
之 间 共 享 排序 开销 ) ， 或 进行 共享 划分 〈 当 使 用 基于 散 列 的 方法 时 ， 在 多 个 方 体 之 间 共 享 划 
分 开销 ) 。 

优化 技术 2: 同时 聚集 和 缓存 中 间 结 果 。 在 立方 体 计算 中 ， 从 先前 计算 的 较 低 层 聚 集 而 
不 是 从 基本 事实 表 计 算 较 高 层 聚 集 是 有 效 的 。 此 外 ， 从 缓存 的 中 间 计 算 结 果 同 时 到 集 可 能 导 
致 减少 开销 很 大 的 磁盘 LO 操作 。 

例如 ， 为 了 按 branch 计算 销售 ， 可 以 使 用 由 较 低层 方 体 ( 如 按 branch 和 day 的 销售 ) 
计算 导出 的 中 间 结 果 。 这 种 技术 可 以 进一步 扩展 ， 进 行 平 摊 扫描 (同时 计算 尽 可 能 多 的 方 
体 ， 分 挫 磁 盘 读 ) 。 

优化 技术 3: 当 存 在 多 个 子女 方 体 时 ， 由 最 小 的 子女 聚集 。 当 存在 多 个 子女 方 体 时 ， 由 
先前 计算 的 最 小 子女 方 体 计算 父母 方 体 〈 即 更 泛 化 的 方 体 ) 通常 更 有 效 。 

例如 ， 为 了 计算 销售 方 体 Cs， 当 存在 两 个 先前 计算 的 方 体 C1 el P C iraner al 时 ， 
如 果 不 同 的 商品 远 比 不 同 的 年 份 多 ， 则 使 用 Ci year 计算 Cs 显然 比 使 用 C irano stom) 更 
有 效 。 

还 有 许多 其 他 优化 技术 可 以 进一步 提高 计算 的 效率 。 例 如 ， 可 以 将 字符 串 属 性 映射 到 整 
数 ， 其 取 值 从 零 到 属性 的 基数 。 

在 冰山 立方 体 的 计算 中 ， 下 面 的 优化 技术 扮演 特别 重要 的 角色 。 

优化 技术 4: 可 以 使 用 先 验 剪 枝 方法 有 效 地 计算 冰山 立方 体 。 对 于 数据 立方 体 ， 先 验 性 
质 (Apriori property) ORA F: 如 果 给 定 的 单元 不 满足 最 小 支持 度 ， 则 该 单元 的 后 代 〔 即 
更 特殊 化 的 单元 ) 也 都 不 满足 最 小 支持 度 。 使 用 这 种 性 质 可 以 显著 地 降低 冰山 立方 体 的 计 
算 量 。 

回想 一 下 ， 冰 山 立 方 体 的 说 明 包含 一 个 冰山 条 件 ， 它 是 在 物化 单元 上 的 约束 。 通 常 的 冰 
山 条 件 是 单元 必须 满足 最 小 支持 度 阅 值 ， 如 最 小 计数 或 总 和 。 在 这 种 情况 下 ， 可 以 使 用 先 验 
性 质 对 该 单元 后 代 的 探查 进行 剪 枝 。 例 如 ， 如 果 方 体 单元 。 的 计数 小 于 最 小 支持 度 立 值 ， 
则 较 低 层 方 体 中 e 的 任何 后 代 单元 的 计数 都 不 可 能 高 于 w， 因 此 可 以 被 前 枝 。 

换言之 ， 如 果 某 个 单元 c 违反 某 条 件 〈 例 如 ，having 子 句 指定 的 冰山 条 件 ) Me 的 
每 个 后 代 也 将 违反 该 条 件 。 遵 守 这 一 性 质 的 度量 称 为 反 单调 的 〔antimonotonic)S。 这 种 形式 
的 剪 枝 在 频繁 模式 挖掘 中 很 流行 ， 它 也 有 助 于 数据 立方 体 的 计算 ， 减 少 处 理 时 间 和 磁盘 空间 
需求 。 这 可 能 导致 更 聚焦 的 分 析 ， 因 为 不 能 通过 阅 值 的 单元 可 能 不 是 有 趣 的 。 

在 下 面 几 节 中 ， 我们 介绍 一 些 流行 的 计算 立方 体 的 有 效 方法 ， 它 们 使 用 以 上 某 些 或 所 有 
的 优化 策略 。 





O JE (Apriori property) 由 R. Agrawal 和 R. Srikant[ AS94] 在 关联 规则 挖掘 的 Apriori 算法 中 提出 。 关 联 规则 
挖掘 的 许多 算法 都 利用 了 这 一 性 质 〈 见 第 6 章 ) 。 
O ” 反 单 调 性 基于 违反 条 件 ， 而 单调 性 基于 满足 条 件 。 
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5.2 数据 立方 体 计算 方法 

数据 立方 体 计算 是 数据 仓库 实现 的 一 项 基本 任务 。 完 全 或 部 分 数据 立方 体 的 预计 算 可 
以 大 幅度 降低 响应 时 间 ， 提 高 联机 分 析 处 理 的 性 能 。 然 而 ， 这 种 计算 是 一 个 挑战 ， 因 为 
它 可 能 需要 大 量 计算 时 间 和 存储 空间 。 本 节 考 察 数据 立方 体 计算 的 有 效 方法 。5. 2. 1 节 介 
绍 计算 完全 立方 体 的 多 路 数组 聚集 方法 。5.2.2 节 介 绍 一 种 称 为 BUC 的 方法 ， 它 从 顶点 
方 体 向 下 计算 冰山 立方 体 。5. 2. 3 节 介 绍 Star-Cubing 方法 ， 它 集成 了 自 项 向 下 和 自 底 向 上 
的 计算 。 

最 后 ，5. 2. 4 节 介 绍 这 片段 立方 体 方 法 ， 它 为 有 效 的 高 维 OLAP 计算 壳 片 段 。 为 了 简化 
讨论 ， 不 考虑 可 以 通过 沿 着 维 的 概念 分 层 攀升 泛 化 得 到 的 方 体 。 这 类 方 体 可 以 通过 扩展 所 讨 
论 的 方法 计算 。 关 于 闭 立方 体 的 有 效 计算 方法 ， 作 为 习题 留 给 感 兴趣 的 读者 。 


5.2.1 完全 立方 体 计算 的 多 路 数组 聚集 


多 路 数组 聚集 (简称 MultiWay) 方法 使 用 多 维 数组 作为 基本 的 数据 结构 ， 计 算 完全 数 
据 立方 体 。 它 是 一 种 使 用 数组 直接 寻 址 的 典型 MOLAP 方法 ， 其 中 维 值 通过 位 置 或 对 应 数组 
位 置 的 下 标 访问 。 因 此 ，MultiWay 不 能 使 用 基于 值 的 重新 排序 作为 优化 技术 。 一 种 不 同 的 
方法 是 为 基于 数组 的 立方 体 结构 开发 的 ， 如 下 所 述 : 

(1) 把 数组 划分 成 块 。 块 是 一 个 子 立 方 体 ， 它 足够 小 ， 可 以 放 和 立方体 计算 时 可 用 的 
内 存 。 分 块 是 一 种 把 维 数组 划分 成 小 的 维 块 的 方法 ， 其 中 每 个 块 作为 一 个 对 象 存放 在 磁 
盘 上 。 块 被 压缩 ， 以 避免 空 数组 单元 所 导致 的 空间 浪费 。 一 个 单元 为 空 ， 如 果 它 不 含有 任何 
有 效 数 据 〈 其 单元 计数 为 零 ) 。 例 如 ， 为 了 压缩 稀 朴 数组 结构 ， 在 块 内 搜索 单元 时 可 以 用 
“chunkID + ofjset” 作 为 单元 的 寻 址 机 制 。 这 种 压缩 技术 功能 强大 ， 可 以 处 理 磁盘 和 内 存 中 的 
稀 朴 立方 体 。 

(2) 通过 访问 立方 体 单元 〈 即 访问 立方 体 单元 的 值 ) 来 计算 聚集 。 可 以 优化 访问 单元 
的 次 序 ， 使 得 每 个 单元 必须 重复 访问 的 次 数 最 小 化 ， 从 而 减少 内 存 访 问 开销 和 存储 开销 。 技 
巧 是 使 用 这 样 一 种 次 序 ， 使 得 多 个 方 体 的 聚集 单元 可 以 同时 计算 ， 避 免 不 必 要 的 单元 再 次 
访问 。 

由 于 分 块 技术 涉及 “重奏 ” 某 些 聚 集 计 算 ， 因 此 称 该 技术 为 多 路 数组 聚集 (multiway 
array aggregation) 。 它 执行 同时 聚集 ， 即 同时 在 多 个 维 组 合 上 计算 聚集 。 

通过 一 个 具体 的 例子 ,解释 这 种 基于 数组 的 立方 体 构造 方法 。 

例 5.4 多 路 数组 立方 体 计算 。 考 虑 一 个 包含 三 个 维 4、B 和 C 的 3-D 数组 。 该 3-D 数 
组 被 划分 成 小 的 、 基 于 内 存 的 块 。 在 这 个 例子 中 ， 该 数组 被 划分 为 64 块 ， 如 图 5.3 所 示 。 
HE A 组 织 成 4 个 相等 的 分 区 ao, a, a, 和 as。 类 似 地 ， 维 B 和 C 也 划分 成 4 分区。 块 1， 
2，…， 64 分 别 对 应 于 子 立 方 体 aopoco， aboco, very 4,550; 。 假设 维 A.B 和 C 的 基数 分 别 
是 40、400 和 4000。 这 样 ， 对 于 维 4、 互 和 C， 数 组 的 大 小 也 分 别 为 40 400 和 4000。 因 
Ik, A, BAC 每 部 分 的 大 小 分 别 是 10 100 和 1000。 对 应 数据 立方 体 的 完全 物化 涉及 计算 
定义 该 立方 体 的 所 有 方 体 。 结 果 完 全 立方 体 由 如 下 各 方 体 组 成 : 

e 基本 方 体 ， 记 作 ABC (其 他 方 体 都 直接 或 间接 地 由 它 计算 )。 该 方 体 已 经 计算 出 来 ， 

并 且 对 应 于 给 定 的 3-D 数组 。 
e 2-D 方 体 48、4C 和 BC， 分 别 对 应 于 按 4B、AC 和 BC 分 组 。 这 些 方 体 必须 计算 。 
。 1-D 方 体 4、B 和 CC， 分 别 对 应 于 按 4、B 和 C 分 组 。 这 些 方 体 必须 计算 。 
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© 0-D (顶点 ) 方 体 ， 记 作 all， 对 应 于 按 O 分 组 ， 即 不 分 组 。 该 方 体 必 须 计 算 。 它 
仅 包 含 一 个 值 。 例 如 ， 如 果 数 据 立方 体 的 度量 是 count， 则 所 计算 的 值 简单 地 是 
ABC 中 所 有 元 组 的 总 计数 。 


A-B¥ i 





图 5.3 将 维 4、B8 和 C 的 3-D 数组 划分 为 64 块 。 每 块 都 足够 小 ， 可 以 放 在 立方 体 计算 
可 用 的 内 存 中 。“* ”指出 已 经 在 处 理 中 聚集 的 1 ~ 13 块 

如 何 用 多 路 数组 技术 进行 这 种 计算 ? 存在 多 种 可 能 的 次 序 将 各 块 读 和 人 内存， 用 于 计算 立 
方 体 。 考 虑 图 5. 3 中 从 ~64 标记 的 次 序 。 假 设计 算 BC 方 体 中 的 boco 块 。 在 块 内 在 中 为 该 
块 分 配 存 储 空间 。 通 过 扫描 4BC 的 第 1 ~4 块 ， 计算 boc 块 。 即 boco 单元 在 a, Bla, 上 聚集 。 
然后 ， 块 内 存 可 以 分 配给 下 一 个 块 bc。， 在 扫描 ABC 紧 接 着 的 4 个 块 (第 5 ~8 块 ) 后 完成 
bico 的 聚集 。 如 此 继续 下 去 ， 可 以 计算 整个 BC 方 体 。 因 此 ， 对 于 所 有 BC 块 的 计算 ， 一 次 
只 需要 把 一 个 BC 块 放 在 内 存 。 

在 计算 BC 方 体 时 ， 必 须 扫描 64 块 中 的 每 一 块 。“ 为 计算 其 他 方 体 ， 如 4B 和 AC， 有 没 
有 办 法 避免 重新 扫描 所 有 的 块 ?” 回 答 是 非常 肯定 的 。 这 正 是 “多 路 计算 ”或 “同时 聚集 ” 
思想 的 由 来 。 例 如 ， 扫 描 块 1 ( 即 aoboco) 时 (例如 ， 如 上 所 述 ， 为 计算 BC 中 的 2-D ik 
boco) ， 同 时 计算 与 aoboc。 有 关 的 所 有 2-D 块 。 也 就 是 说 ， 扫 描 aboca 时 ， 应 该 同时 计算 三 
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个 2-D 聚集 平面 BC、4C 和 48 上 的 三 个 块 bco、aoco 和 aobo。 换 名 话说 ， 当 一 个 3-D RE 
内 存 时 ， 多 路 计算 向 每 一 个 2-D 平面 同时 聚集 。 

现在 ， 看 看 不 同 的 块 扫描 和 方 体 计 算 次 序 对 完全 数据 立方 体 的 计算 效率 有 什么 影响 。 注 
T, 维 4、B 和 C 的 大 小 分 别 为 40 400 和 4000。 因 此 ， 最 大 的 2-D 平面 是 BC( 大 小 为 
400 x 4000 = 1 600 000); 次 大 的 2-D 平面 是 4C( 大 小 为 40 x 4000 = 160 000); AB 是 最 小 的 
2-D 平 面 (大 小 为 40 x400 =16000) 。 

假设 以 所 示 次 序 从 块 1 BSR 64 扫描 各 块 。 如 上 所 述 ， 扫 描 包 含 块 1 BR TT, baco 
完全 被 聚集 ; 扫描 包含 块 5 到 块 8 WTA, bico 完全 被 聚集 等 。 于 是 ， 为 了 完全 计算 BCH 
体 的 一 块 (其 中 BC 是 最 大 的 2-D 平面 ) ， 需 要 按 此 次 序 扫 描 该 3-D 方 体 的 4 块 。 换 言 之 ， 
按照 这 个 次 序 扫 描 ， 每 扫描 一 行 ，BC 的 一 块 就 被 完全 计算 。 相 比 之 下 ， 给 定 扫描 次 序 1 ~ 
64 ， 完 全 计算 次 大 2-D PH AC 上 的 一 块 需要 扫描 13 块 。 也 就 是 说 ， 扫 描 块 1、5、9 和 13 
后 aoco 才 被 完全 聚集 。 

最 后 ， 计 算 最 小 的 2-D 平面 4B 上 的 一 块 需要 扫描 49 块 。 例 如 ， 扫 描 块 1、17、33 和 
49 后 ，aobo 被 完全 聚集 。 因 此 ， 为 了 完成 计算 ，48 需要 的 扫描 块 数 最 多 。 为 了 避免 把 一 个 
3-D 块 多 次 调 人 内 存 ， 根 据 从 1 ~ 64 的 扫描 次 序 ， 在 块 内 存 中 保持 所 有 相关 的 2-D 平面 所 需 
最 小 内 存单 位 为 : 40 x 400( 用 于 整个 48 平面 ) +40 x 1000( 用 于 AC 平面 的 一 行 ) + 100 x 
1000( 用 于 BC 平面 的 一 块 ) = 16 000 +40 000 + 100 000 = 156 000 个 内 存单 位 。 

换 一 种 次 序 ， 假 设 块 的 扫描 次 序 为 1、17、33、49、5、21、37、53 等 。 也 就 是 说 ， 假 
定 扫描 次 序 是 首先 向 AB 平面 ， 然 后 向 4C 平面 ， 最 后 向 BC 平面 聚集 。 保 持 二 维 平面 在 块 内 
存 中 的 最 小 内 存 需 求 量 为 : 400 x 4000( 用 于 整个 BC 平面) +10 x4000( 用 于 AC 平面 的 一 
行 ) +10 x100( 用 于 AB 平面 的 一 块 ) =1 641 000 存储 单位 。 注 意 ， 这 是 从 1 ~ 64 扫描 次 序 
所 需 内 存 的 十 倍 多 。 

类 似 地 ， 可 以 算出 1-D 和 0-D 方 体 多 路 计算 的 最 小 内 在 需 求 量 。 图 5. 4 显示 计算 1-D 方 
体 的 最 有 效 方法 。1-D 方 体 4 M B 的 各 块 在 计算 最 小 的 2-D 方 体 AB 时 计算 。 最 小 的 1LD 方 
体 4 的 所 有 块 都 放 在 内 存 ， 而 较 大 的 1-D 方 体 8B 一 次 只 有 一 块 在 内 存 中 。 类 似 地 ， 方 体 C 
的 块 在 计算 次 小 的 方 体 4C 时 计算 ， 一 次 只 需要 一 块 在 内 存 。 根 据 这 种 分 析 ， 可 以 看 出 使 用 
上 述 内 存 分 配 策略 ， 数 组 立方 体 计算 的 最 有 效 次 序 是 块 次 序 1 ~64。 m 

在 例 5.4 中 ， 假 定 有 足够 的 内 存 空间 进行 一 遍 立 方 体 计 算 〈 即 通过 一 次 扫描 所 有 块 来 计 
算 所 有 的 方 体 )。 如 果 内 存 空间 不 足 ， 则 完成 计算 将 需要 多 遍 扫 描 3-D 数组 。 然 而 ， 在 这 种 
情况 下 ， 确 定 块 计算 次 序 的 基本 原则 是 一 样 的 。 当 维 的 基数 乘积 适中 并 且 数 据 不 是 太 稀 朴 
时 ，MultiWay 是 最 有 效 的 。 当 维度 很 高 或 者 数据 非常 稀疏 时 ， 内 存 数组 变 得 太 大 ， 不 能 放 
在 内 存 中 ， 这 种 方法 就 变 得 不 可 行 。 

使 用 适当 的 稀 朴 数组 压缩 技术 和 仔细 的 方 体 计算 顺序 ， 实 验 表 明 MultiWay 数组 立方 
体 计算 比 传统 的 ROLAP (基于 关系 记录 的 ) 计算 快 得 多 。 与 ROLAP A, MultiWay 的 数 
组 结构 不 需要 节省 空间 来 存放 搜索 码 。 此 外 ，MultiWay 使 用 直接 数组 寻 址 ， 比 ROLAP 的 
基于 关键 字 的 寻 址 搜索 策略 快 。 对 于 ROLAP 立方 体 计 算 ，, 不 直接 使 用 表 计 算 立方 体 ， 而 
是 将 表 转 换 成 数组 ， 用 数组 计算 立方 体 ， 然 后 再 把 结果 转换 成 表 可 能 更 快 。 然而， 这 种 
方法 可 能 仅 对 具有 相对 较 少 维 的 立方 体 才 有 效 ， 因为 需要 计算 的 方 体 个 数 随 维 数 指 数 
增长 。 
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B A GELI C @ a, a, a; 
Aa A) A: a; 
a) b) 


图 5.4 计算 例 5.4 的 1-D 方 体 的 内 存 分 配 和 计算 次 序 : a) 1-D 方 体 4 和 8B 的 各 块 在 计算 
最 小 的 2-D 方 体 ABA RSE; b) 1-D 方 体 C 的 块 在 计算 次 小 的 方 体 ACH RR, 
“* ”表示 已 经 聚集 的 块 
“如 果 试 图 用 MultiWay 计算 冰山 立方 体 效 果 如 何 ?” 回 想 一 下 ， 先 验 性 质 表明 ， 如 果 给 
定 的 单元 不 满足 最 小 支持 度 ， 则 它 的 任何 后 代 也 不 满足 。 不 幸 的 是 ，MultiWay 计算 从 基本 
方 体 开始 ， 逐 步 向 上 到 更 沙化 的 祖先 方 体 。 它 不 能 利用 先 验 剪 枝 ， 因 为 先 验 前 枝 需要 在 子女 
结 点 〈 即 更 特殊 化 的 结 点 ) 之 前 计算 父母 结 点 。 例 如 ， 如 果 AB 中 的 单元 c 不 满足 冰山 条 件 
指定 的 最 小 支持 度 ， 那 么 也 不 能 剪 掉 c， 因 为 e 在 方 体 4 或 B 中 的 祖先 的 计数 可 能 大 于 最 小 
支持 度 ， 并 且 它 们 的 计算 需要 c 的 计数 。 


5.2.2 BUC; 从 顶点 方 体 向 下 计算 冰山 立方 体 all 


BUC 是 一 种 计算 稀 玖 冰山 立方 体 的 算法 。 与 Mul- 
tiWay PE, BUC 从 顶点 方 体 向 下 到 基本 方 体 构造 冰 
山 立方 体 。 这 使 得 BUC 可 以 分 担 数 据 划 分 开销 。 这 种 
处 理 次 序 也 使 得 BUC 在 构造 立方 体 时 使 用 先 验 性 质 进 


4 B C 
行 剪 枝 。 
图 5. 5 显示 一 个 方 体 的 格 ， 构 成 一 个 具有 维 4、B 
和 C 的 3-D 数据 立方 体 。 顶 点 (0-D) 方 体 代表 概念 
AB AC BC 


al ( 即 ( * , * , * ) ) ， 在 格 的 顶部 。 这 是 最 聚集 或 最 
泛 化 的 层 。3-D 基本 方 体 4BC 在 格 的 底部 。 这 是 最 不 

聚集 (最 细节 或 最 特 化 ) 的 层 。 方 体格 的 这 种 表示 

(顶点 方 体 在 顶部 而 基本 方 体 在 底部 ) ， 在 数据 仓库 界 

广泛 接受 。 它 将 下 钻 〈《 从 高 聚集 单元 向 较 低 、 更 细 化 ABC 

的 单元 移动 ) 和 上 卷 (从 细节 的 、 低 层 单元 向 较 高 ”图 5 5 3. 数据 立方 休 计 算 的 BUCK 
层 、 更 聚集 的 单元 移动 ) 概念 一 致 起来 。 查 。 注 意 ， 计 算 从 项 点 方 体 开始 
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BUC 代表 “ 自 底 向 上 构造 ”( Bottom-Up Construction) 。 然 而 ， 根 据 上 面 介绍 的 并 贯穿 本 
书 使 用 的 格 的 约定 ，BUC 的 处 理 次 序 实际 上 是 自 顶 向 下 ! BUC 的 作者 以 相反 的 次 序 观 察 方 
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体 的 格 ， 顶 点 方 体 在 底部 ， 而 基本 方 体 在 顶部 。 从 这 种 角度 看 ，BUC 确实 是 自 底 向 上 构造 








的 。 然 而 ， 由 于 我 们 采用 应 用 观点 ， 下 钻 表示 从 顶点 方 体 向 下 到 基本 方 体 ， 因 此 将 BUC 的 
探查 过 程 视 为 自 顶 向 下 。3-D 数据 立方 体 计算 的 BUC 探查 显示 在 图 5.5 中 。 

BUC 算法 显示 在 图 5.6 中 。 首 先 解释 算法 ， 然 后 给 出 一 个 例子 。 开 始 ， 用 输入 关系 
(元 组 集 ) 调用 该 算法 。BUC 聚集 整个 输入 〈 行 1) 并 输出 结果 总 数 ( 行 3)。( 行 2 是 优化 
特征 ， 稍 后 在 例子 中 讨论 .) 对 于 每 个 维 d( 行 4) ,输入 在 4 上 划分 ( 行 6)。 由 Partition () 
返回 ,dataCount 包含 维 d 的 每 个 不 同 值 的 元 组 总 数 。d 的 每 个 不 同 值 形成 自己 的 分 区 。 行 8 
对 每 个 分 区 和 迭代。 行 10 检查 分 区 的 最 小 支持 度 。 也 就 是 说 ， 如 果 该 分 区 中 的 元 组 数 满足 
(ANS) 最 小 支持 度 ， 则 该 分 区 成 为 递归 调用 BUC 的 输入 关系 ， 在 维 d+1 到 numDims 上 的 
划分 计算 冰山 立方 体 ( 行 12)。 


Bik: BUC。 计 算 稀 疏 冰山 立方 体 的 算法 。 
输入 : 
© input: 待 聚集 的 关系 。 
o dim: 本 次 迭代 的 起 始 维 。 
2ER. 
© 常量 numDims: 维 的 总 数 。 
o 常量 cardinality[ numDims]; 每 个 维 的 基数 。 
。 常量 min_sup: 分 区 中 的 元 组 的 最 少 个 数 ， 满 足 它 的 分 区 才 输 出 。 
© outputRec; 当前 输出 记录 。 
© dataCount| numDims]: 存放 每 个 分 区 的 大 小 。dataCount[i] 是 大 小 为 cardinality[ i] 的 整数 列表 。 
输出 ;递归 地 输出 满足 最 小 支持 度 的 冰山 立方 体 单元 。 
方法 : 
(1) Aggregate( input); / 扫描 整个 input, AREE (UN coxm ) ， 并 将 结果 存 人 outputRec 
(2) if input. count() ==1 then / 优化 
WriteAncestors( input[0] dim); return; 
endif 
(3) write outputRec; 
(4) for(d=dim; d<numDims; d++)do / 划分 每 个 维 
(5) C=cardinality[ d] ; 
(6) Partition( input, d, C, dataCount[ d] ); ”YN 对 维 d 创建 数据 的 C 个 分 区 














(7) k=0; 

(8) for(i=0;i<C;i++)do Z 对 每 个 分 区 (H d 的 每 个 值 ) 
(9) c =dataCount[ d] [i]; 

(10) ifc>=min_sup then / 检查 冰山 条 件 

(11) outputRec. dim[ d] =input[ k]. dim[ d] ; 

(12) BUC(input[ 太 .kt+c~-1],d+1); Z 在 下 一 个 维 上 聚集 
(13) endif 

(14) k+=c; 

(15) endfor 

(16) — outputRec. dim[ d] = all; 

(17) endfor 








图 5.6 计算 稀疏 冰山 立方 体 的 BUC 算法 。 源 于 Beyer 和 Ramakrishnan[ BR99 ] 


注意 ， 对 于 完全 立方 体 ( 即 having 子 句 中 的 最 小 支持 度 为 1) ， 最 小 支持 度 条 件 总 是 
满足 的 。 这 样 ， 递 归 调用 下 降 一 层 ， 更 深入 进 格 。 一 旦 从 递归 调用 返回 ， 就 继续 处 理 d 的 下 
一 个 分 区 。 当 所 有 的 分 区 都 处 理 完 后 ， 就 对 剩 下 的 每 个 维 重复 该 过 程 。 

例 5.5 冰山 立方 体 的 BUC 构建 。 考 虑 如 下 用 SQL 表达 的 冰山 立方 体 : 
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compute cube iceberg_cube as 
select A, B, C, D, count(*) 
from R 

cube by A, B, C, D 

having count(*) >= 3 


让 我 们 看 看 BUC 如 何 构 造 维 4、B、C 和 D 的 冰山 立方 体 ， ,中 最 小 支 持 诬 计数 为 3。 假 设 
WAARA an a, a, a; B4 AREE bi. ba, ba, ba; C 有 2 个 不 同 值 ci、 
cz; 而 D 有 2 个 不 同 值 d,、d,。 让 将 外 分 组 大 成 一 划分 则 必须 计算 满足 最 小 支持 度 
( 即 具有 3 个 元 组 ) 的 分 组 属性 的 每 个 组 合 

图 5.7 显示 了 如 何 首 先 根据 维 4， 然后 
根据 维 8、C 和 0D 的 不 同属 性 值 将 输入 进行 
划分 。 为 了 进行 划分 ，BUC HHA, R 
集 元 组 得 到 al 的 计数 ， 对 应 于 单元 ( * ， 
*, +, +), AAA Bi ADR 4 个 分 
区 ， 每 个 对 应 于 4 的 一 个 不 同 值 。4 的 每 个 
不 同 值 的 元 组 数 (计数 ) 记录 在 
dataCount 中 。 

在 搜索 满足 冰山 条 件 的 元 组 时 ，BUC 使 
用 先 验 性 质 节省 搜索 时 间 。 从 维 4 的 值 a F 
in, Ra HR, HA 的 分 组 创建 一 个 元 组 ， 
对 应 于 单元 (a, *, *, *)o BR (a, 
*, x, +) 满足 最 小 支持 度 ， 此 时 在 a1 的 
分 区 上 进行 递归 调用 。BUC EEB 上 划分 a， 
的 分 区 。 它 检查 (a, bi, *, *) 的 计数 ， 
看 它 是 否 满足 最 小 支持 度 。 如 果 满 足 ， 则 输出 
AB 分 组 的 聚集 元 组 ， 并 在 (a, b, *, *) 
上 递归 ， 从 c 开始 对 C 上 划分 。 假 设 la, 
b,c, x) 的 单元 计数 是 2， 不 满足 最 小 支 
持 度 。 根 据 先 验 性 质 ， 如 果 一 个 单元 不 满足 最 
小 支持 度 ， 则 它 的 任何 后 代 也 不 可 能 满足 。 因 
此 ， BUC 剪 掉 对 (a, b,, fe, *) 的 进一步 
探查 。 也 就 是 说 ， 它 避免 在 维 D 上 对 该 单元 
划分 。 它 回潮 到 a,, b HR, HA (a, 图 5.7 BUC 划分 给 定 4-D 数据 集 的 快照 
b,c, *) 上 递归 ， 如 此 下 去 。 通 过 在 每 次 递归 调用 前 检查 冰山 条 件 ， 只 要 单元 的 计数 不 
满足 最 小 支持 度 ，BUC 就 节省 大 量 处 理 时 间 。 

使 用 一 种 线性 排序 方法 CountingSort 使 得 划分 过 程 更 加 方便 。CountingSor 很 快 ， 因 为 它 
不 进行 任何 关键 字 比 较 就 能 找到 划分 边界 。 此 外 ， 排 序 时 计算 的 计数 可 以 在 BUC 计算 分 组 
时 重用 。 行 2 是 对 具有 计数 1 的 分 区 进行 优化 ， 如 例子 中 的 〈a ，56,，* ，* ) 。 为 了 节省 
划分 开销 ， 将 计数 写 到 每 个 元 组 后 代 的 分 组 上 。 这 特别 有 用 ， 因 为 在 实践 中 ， 许 多 分 区 都 具 Bo 
有 单个 元 组 。 E 

BUC 的 性 能 容易 受 维 的 次 序 和 倾斜 数据 的 影响 。 理 想 地 ， 应 当 首 先 处 理 最 有 区 分 能 力 
的 维 。 维 应 当 以 基数 递减 序 处 理 。 基 数 越 高 ， 分 区 越 小 ， 因 而 分 区 越 多 ， 从 而 为 BUC By 
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提供 了 更 大 的 机 会 。 类 似 地 ， 维 越 均 匀 〈 即 具有 较 小 的 倾斜 ) ， 对 剪 枝 越 好 。 

BUC 的 主要 贡献 是 分 担 划 分 开销 的 思想 。 然 而 ， 与 MultiWay 不 同 ， 它 不 在 父母 与 子女 
的 分 组 之 间 共 享 聚集 计算 。 例 如 ， 方 体 48 的 计算 对 ABC 的 计算 并 无 帮助 。 后 者 基本 上 需要 
AKIA o 
5.2.3 Star-Cubing， 使 用 动态 星 树 结 构 计 算 冰 山 立 方 体 

本 节 介 绍 计算 冰山 立方 体 的 Star- Cubing 算法 。Star- Cubing 结合 了 我 们 已 经 研究 过 的 其 
他 方法 的 优点 。 它 集成 自 顶 向 下 和 自 底 向 上 立方 体 计算 ， 并 利用 多 维 聚 集 (类 似 于 Muhi- 
Way) 和 类 Apriori 剪 校 《 类似 于 BUC) 。 它 在 一 个 称 为 星 树 (star-tree) 的 数据 结构 上 操作 ， 
对 该 数据 结构 进行 无 损 数 据 压缩 ， 从 而 降低 计算 时 间 和 内 存 需 求 量 。 

Star- Cubing 算法 利用 自 底 向 上 和 自 顶 向 下 模式 的 计算 模式 : 在 全 局 计算 次 序 上 ， 它 使 用 
自 底 向 上 模式 。 然 而 ， 正 如 我 们 在 下 面 将 看 到 的 ， 它 下 面 有 一 个 基于 自 顶 向 下 模式 的 子 层 ， 
利用 共享 维 的 概念 。 这 种 集成 允许 算法 在 多 个 维 上 聚集 ， 而 仍然 划分 父母 分 组 并 剪裁 不 满足 
冰山 条 件 的 子女 分 组 。 

对 于 4-D 数据 立方 体 的 计算 ，Star-Cubing 方法 如 图 5.8 所 示 。 如 果 只 遵循 自 底 向 上 模式 
(HMF Multiway) ， 则 Star-Cubing 标记 为 “ 剪 枝 ” 的 方 体 仍然 被 考察 。Star- Cubing 能 够 前 
掉 标记 的 方 体 ， 因 为 它 考虑 共享 维 。4CD/4 意味 方 体 4CD 具有 共享 维 4，4BD/4B 意 昧 方 体 
ABD 具有 共享 维 AB, ABC/ABC 意 昧 方 体 ABC 具有 共享 维 ABC 等 。 这 源 于 证 化 : 在 以 ACD 
为 根 的 子 树 中 的 所 有 方 体 都 包含 维 4， 在 以 ABD 为 根 的 子 树 中 的 所 有 方 体 都 包含 维 4B， 在 
以 ABC 为 根 的 子 树 中 的 所 有 方 体 都 包含 维 ABC (尽管 这 样 的 方 体 只 有 一 个 ) 。 我 们 称 这 些 公 
共 维 为 特定 子 树 的 共享 维 (shared dimension) 。 

共享 维 的 引信 有 利于 共享 计算 。 由 于 共享 维 在 树 扩展 前 识别 ， 因 此 可 以 避免 以 后 重新 计 

[204] 算 它 们 。 例 如 ， 从 图 5.8 中 48D 扩展 的 方 体 48 实际 上 被 前 校 ， 因 为 48 实际 上 已 经 在 ABD/ 
AB 中 计算 。 类 似 地 ， 从 4D 扩展 的 方 体 4 也 被 剪 枝 ， 因 为 它 已 经 在 ACD/A4 中 计算 。 


Er NSO 
“人 "TT aia 


ABCIABC ABDIAB ACD/A BCD 





ABCD 
图 5.8 Star-Cubing: 共有 自 顶 向 下 共享 维 扩展 的 自 底 向 上 计算 
如 果 冰 山 立 方 体 度量 (如 count) 是 反 单调 的 ， 则 共享 维 多 许 类 Apriori 剪 梳 。 也 就 是 


说 ， 如 果 共 享 维 上 的 聚集 值 不 满足 冰 出 条 件 ， 则 河 该 共享 维 向 下 的 所 有 单元 也 不 可 能 满足 冰 
山 条 件 。 这 样 的 单元 和 它们 的 所 有 后 代 都 可 以 被 剪 枝 ， 因 为 根据 定义 ， 这 些 单元 比 共 享 维 中 
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的 单元 更 特殊 化 〔 即 包含 更 多 维 )。 后 代 单元 涵盖 的 元 组 数 将 少 于 或 等 于 共享 维 涵盖 的 元 组 
数 。 因 此 ， 如 果 在 共享 维 上 的 聚集 值 不 满足 冰山 条 件 ， 则 后 代 单 元 也 不 可 能 满足 。 

例 5. 6 共享 维 剪 枝 。 如 果 共 享 维 4 的 值 为 mw ， 并 且 它 不 满足 冰山 条 件 ， 则 以 a)CD/a,， 
为 根 的 整 棵 子 树 (包括 @,CD/a,C, a,D/a,, a,/a,) 都 可 以 被 剪 枝 ， 因 为 它们 都 是 a, 的 更 
特殊 化 的 版 本 。 四 

为 了 解释 Star- Cubing 算法 如 何 工作 ， 还 需要 解释 几 个 概念 ， 即 方 体 树 、 星 结 点 和 星 树 。 

使 用 树 表 示 个 体 方 体 。 图 5. 9 显示 了 基本 方 体 ABCD 的 方 体 树 (cuboid tree) 片段 。 树 
的 每 一 层 代表 一 个 维 ， 而 每 个 结 点 代表 一 个 属性 值 。 每 个 结 点 有 4 个 字段 : PE. RE 
值 、 指 向 第 一 个 子女 的 指针 和 指向 第 一 个 兄妹 的 指针 。 方 体 中 的 元 组 逐个 插入 树 中 。 一 条 从 
根 到 树叶 结 点 的 路 径 代表 一 个 元 组 。 例 如 ， 树 中 结 点 c; 具有 聚集 〈 计 数 ) 值 5， 表 示 值 
(a, 6,0, *) 有 5 个 单元 。 这 种 表示 合并 了 公共 前 级 ， 节 省 内 存 并 允许 聚集 内 部 结 点 
上 的 值 。 利 用 内 部 结 点 上 的 聚集 值 ， 可 以 进行 基于 共享 维 的 剪 枝 。 例 如 ，48 的 方 体 树 可 以 
用 来 对 ABD 的 可 能 单元 进行 前 枝 。 


a,:30 a20 a20 a20 





图 5.9 基本 方 体 树 的 片段 


如 果 单 个 维 在 属性 值 p 上 的 聚集 不 满足 冰山 条 件 ， 则 在 冰山 立方 体 计算 中 识别 这 样 的 结 
点 没有 意义 。 这 样 的 结 点 p 可 以 用 * 替换 ， 使 方 体 树 可 以 进一步 压缩 。 如 果 单 个 维 在 p 上 的 
育 集 不 满足 冰山 条 件 ， 则 称 属 性 A 中 的 结 点 是 星 结 点 (star node); 否则 ， 称 p 为 非 星 结 
点 (non-star node) 。 使 用 星 结 点 压缩 的 方 体 树 称 为 星 树 (star-tree) 。 

例 5.7 星 树 构造 。 一 个 基本 方 体 表 显示 在 表 5. 1 中 。 该 基本 方 体 有 5 个 元 组 和 4 个 
HE, HEA, B, CAD 的 基数 分 别 为 2、4、4 和 4。 所 有 属性 的 一 维 聚 集 显示 在 表 5. 2 中 。 假 
定 冰山 条 件 中 min_support =2。 显 然 ， 只 有 属性 值 a, a. b c, d 满足 该 条 件 ， 其 他 值 
都 低 于 阔 值 从 而 成 为 星 结 点 。 通 过 压 扁 是 结 点 ， 归 约 的 基本 表 是 表 5.3。 注 意 ， 与 表 5.1 相 
比 ， 该 表 少 2 行 ， 并 且 不 同 的 值 也 较 少 。 








表 5.1 基本 (AK) 表 : 星 归 约 前 表 5. 2 一 维 聚 集 
A B C D count 维 count =1 count >2 
a b, 4 dı 1 4 一 a, (3) a (2) 
a, bi Ca ds I 
a b, cy d, 1 B by. bz, ba b, (2) 
a, b; c3 ds 1 c ei> C2 C4 e (3) 
a, bs e ds 1 D di da, da dy (2) 
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使 用 归 约 的 基本 表 来 构造 方 体 树 ， 因 为 它 比较 小 。 结 果 星 树 显示 在 图 5. 10 中 。 m 
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root:5 
#5.3 EWRHEAR: 星 归 约 后 a3 ~ 
A B c D count 一 ~ | 
a, bi * * 2 4 2 52 
a * * * 1 L bs da 
a c3 d, 2 Ay da do 


图 5.10 压缩 的 基本 表 的 星 树 


现在 ， 看 看 Star- Cubing 算法 如 何 使 用 星 树 来 计算 冰山 立方 体 。Star- Cubing 算法 在 
图 5. 13 中 给 出 。 

例 5.8 Star-cubing。 使 用 例 5.7 产生 的 星 树 ( 见 图 5.10)， 通过 自 底 向 上 的 方式 遍 
历 ， 开 始 聚 集 过 程 。 遍 历 是 深度 优先 的 。 第 一 阶段 (有 即 树 的 第 一 个 分 支 的 处 理 ) 显示 在 
图 5.11 中 。 图 中 最 左边 的 树 是 基本 星 树 。 每 个 属性 值 与 它 的 对 应 聚集 值 一 起 显示 。 此 外 ， 
树 结 点 旁 的 下 标 显 示 遍 历 的 次 序 。 其 余 4 棵 树 是 BCD, ACD/A, ABD/AB, ABC/ABC, 它们 
都 是 基本 星 树 的 子女 树 ， 并 对 应 于 图 5. 8 基本 方 体 上 方 的 3-D 方 体 层 。 它 们 中 的 下 标 对 应 于 
基本 树 的 相同 下 标 ， 表 示 树 饥 历 时 它们 创建 的 步骤 或 次 序 。 例 如 ， 当 算法 在 步骤 1 时 ， 创 建 
BCD 子女 树 根 。 在 步 双 2， 创建 4CD/4 子女 树 根 。 在 步 又 3， 创建 48D/4B 树 根 和 BCD 中 
的 8* 结 点 。 

当 算 法 到 达 步 又 5 时 ， 内 存 中 的 树 如 图 5. 11 所 示 。 由 于 此 时 深度 优先 搜索 到 达 了 一 个 
树叶 ， 所 以 它 开始 回 湖 。 在 回溯 前 ， 算 法 注意 到 基本 维 (4BC) 的 所 有 可 能 结 点 都 已 经 访 
问 。 这 意味 ABC/ABC 树 已 经 完成 ， 因 此 输出 计数 并 销 角 该 树 。 类 似 地 ， 从 d* 移 回 到 ce* 并 
看 到 c* 没 有 兄妹 ， 也 输出 ABD/AB 中 的 计数 ， 并 销毁 该 树 。 





























1 . igs 
HES, | BCD:5， | a,CDia,:3, a,b Dila,b il, a,b’clab'c':, 

1 1 1 

ai:32 a;2 i b1, 1 i d:l; i 
1 
1 
六 :1; 六 :2 b:2 2 :14 d 1， | 

pf | | 

el, 2 a2 | di, | 1 
d :ls d':2 d;:2 ! 

| 1 

l 

1 1 1 

基本 树 ' BCD- 树 ' ACD/4- 树 ' 4BD/4B- 树 ' ABCI4BC- 树 


图 5.11 聚集 阶段 一 : 处 理 基 本 树 的 最 左 分 支 


当 算 法 回溯 到 8* 时， 它 注意 到 在 b 中 存在 一 个 兄妹 。 因 此 ， 它 将 4CDv4 留 在 内 存 ， 并 
像 对 思 做 的 那样 ， 对 b 进行 深度 优先 搜索 。 该 遍历 和 结果 树 显示 在 图 5. 12 中 。 子 女 树 
ACD/A 和 ABD/AB 又 一 次 创建 ,但 是 用 b, 子 树 的 新 值 。 例 如 ，4CD/4 树 中 c* 的 聚集 计数 已 
经 从 1 增加 到 3。 在 上 次 所 历 期 间 依然 完整 无 缺 的 这 些 树 再 次 使 用 ， 并 且 新 的 聚集 值 加 到 上 
面 。 例 如 ， 另 一 个 分 支 加 到 BCD 树 上 。 
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HLS, | BCD:S, ! aCDla:3;! abDlab:2, | a,b,c'la,b,c':2, 
~、 ' ! 
AÈ EN | bl, by:25 | 23, | d :2, | 
1 ' 1 1 
x 2 1 | | | 1 i 
bi 62i ea, 1! d3 | i 
| ! | | | | | 
c :2 ci2 l ty d2! ! | 
| ! | ! ! 
d":2, d;2 | i | i 

基本 树 ' BCD- 树 = ' ACDIA-BE ' 4BD/4B- 树 ' ABCIABC-} 

图 5.12 聚集 阶段 二 : 处 理 基 本 树 的 第 二 个 分 支 208 





算法 : Star-Cubing. 通过 Star-Cubing 计 算 冰山 立方 体 : 


入 : 
* R: RRR. 
* min_support: 冰山 立方 体 条 件 的 最 小 支持 度 靖 值 〈 取 coxzi 作 为 度量 ) : 
输出 : 计算 的 冰山 立方 体 ， 
方法 : 每 棵 星 树 对 应 于 一 个 方 体 树 结 点 , .反之 亦 然 。 
BEGIN 
扫描 R 两 次 .创建 星 表 S 和 星 树 T 
输出 Troot 的 count: 
调用 starcubing (T.T.root) ; 
END 
procedure starcubing (T,cnode) |I cnode: 当前 结 点 
{ 
(1) for 7 的 方 体 树 的 每 个 非 空子 女 C 
(2) 插入 或 聚集 cnode 到 C 的 星 树 的 对 应 位 置 或 结 点 ; 


(3) if (cnode.count>min_support) then { 








(4) if (cnode*~root) then 

(5) output cnode.count; 

(6) ”if (cnode 是 叶 结 点 〉 then 

(7) output cnode.count; 

(8) else { /初始 化 新 的 方 体 树 
(9) createC. 作 为 7 的 方 体 树 子女 ; 
(10) STAC HEH; 

(11> T,..roott}count=cnode. count; 
(12) } 

(13> } 


(14》 if CcnodeA ERM) then 
(15> starcubing (T,cnode first_child) : 


(16) if (CHEF) then { 
(17) starcubing (T,..T,-.root) : 


(18) 将 Cr 从 7 的 方 体 树 删除 ; } 
(19) 这 (cnrode 有 兄妹 ) then 
(20) starcubing (T,cnode.sibling) ; 


QD WET. 
L — 
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像 以 前 一 样 ， 算 法 将 到 达 d’ 的 一 个 叶 结 点 并 回 滴 。 这 次 ， 它 将 到 达 a, ， 并 注意 到 在 a, 
中 存在 一 个 兄妹 。 在 这 种 情况 下 ， 图 5. 12 中 除 BCD 之 外 的 所 有 子女 树 都 已 经 销毁 。 然 后 ， 
对 a, 进行 相同 的 遍历 。BCD 继续 生长 ， 而 其 他 子 树 用 a, 而 不 是 用 a, 开始 新 生 。 m 
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为 了 产生 子女 树 ， 结 点 必须 满足 两 个 条 件 : (1) 结 点 的 度量 必须 满足 冰山 条 
件 ;〈2) 产 生 的 树 必 须 至 少 包 含 一 个 非 星 〈 即 非 平凡 的 ) 结 点 。 这 是 因为 如 果 所 有 的 结 
点 都 是 星 结 点 ， 则 它们 都 不 满足 min_sup。 因 此 ， 计 算 它们 完全 是 浪费 。 这 种 前 枝 可 以 
从 图 5.11 和 图 5. 12 观察 到 。 例 如 ， 由 图 5.11 中 的 基本 树 的 结 点 a 扩展 的 左 子 树 不 包 
含 任何 非 星 结 点 。 因 此 ， 应 当 不 产生 a CD/a, 子 树 。 然 而 ,为 了 解释 子女 树 的 产生 过 
程 ， 图 中 显示 了 它 。 

与 其 他 冰山 立方 体 构造 算法 一 样 ，Star-Cubing 对 维 的 次 序 敏 感 。 为 了 获得 最 佳 性 能 ， 维 
以 基数 的 递减 序 处 理 。 这 导致 更 好 的 尽早 前 枝 的 机 会 ， 因 为 基数 越 高 ， 分 区 越 小 ， 因 此 分 区 
剪 枝 的 可 能 性 越 高 。 

Star- Cubing 也 可 以 用 来 计算 完全 立方 体 。 当 计算 稠密 数据 集 的 完全 立方 体 时 ，Star- Cu- 
bing 的 性 能 可 以 与 MultiWay 相 媲 美 ， 并 且 比 BUC 快 得 多 。 如 果 数 据 集 是 稀 朴 的 ，Star- Cu- 
bing 比 MultiWay 快 很 多 ， 并 且 在 大 部 分 情况 下 比 BUC 快 。 对 于 冰山 立方 体 计 算 ，Star- Cu- 
bing 比 BUC 快 ， 其 中 数据 是 倾斜 的 ， 并 且 加 速 因子 随 min_sup 减 小 而 增加 。 


5.2.4 为 快速 高 维 OLAP 预计 算 壳 片 段 

回想 一 下 我 们 对 数据 立方 体 预计 算 感 兴趣 的 原因 : 数据 立方 体 有 利于 多 维 数据 空间 的 快 
速 OLAP。 然 而 ， 高 维 完全 数据 立方 体 需 要 海量 存储 空间 和 不 切实 际 的 计算 时 间 。 冰 山 立方 
体 提供 了 一 个 更 可 行 的 替代 方案 ,正如 我 们 已 经 看 到 的 ， 冰 山 条 件 用 来 指定 只 计算 完全 立方 
体 单元 的 一 个 子 集 。 然 而 ， 尽 管 冰 山 立 方 体 比 对 应 的 完全 立方 体 小 ， 并 且 需 要 较 少 的 计算 时 
间 ， 但 是 它 还 不 是 最 终 的 解 。 

第 一 ， 冰 山 立 方 体 本 身 的 计算 和 存储 开销 可 能 仍然 很 高 。 例 如 ， 如 果 基 本 方 体 单 元 
(ai, aa, 0, ao) 满足 最 小 支持 度 〔( 或 冰山 阐 值 ) ， 则 它 将 产生 22 个 冰山 立方 体 单元 。 第 
和 二， 很 难 确定 合适 的 冰山 阐 值 。 该 廊 值 设 得 太 低 将 导致 巨大 的 立方 体 ， 而 该 阐 值 设 得 太 高 可 
能 无 法 用 于 许多 有 意义 的 应 用 。 第 三 ， 冰 山 立 方 体 不 能 增 量 地 更 新 。 一 旦 一 个 聚集 单元 低 于 
冰山 阐 值 ， 它 就 被 剪 枝 ， 它 的 度量 值 就 丢失 。 任 何 增 量 更 新 都 需要 从 头 重新 计算 。 对 于 新 数 
据 经 常 增 量 地 添加 的 大 型 实际 应 用 ， 这 是 非常 不 期 望 的 。 

一 个 可 能 的 解 是 计算 一 个 很 薄 的 立方 体外 过 (cube shell) ， 已 经 在 一 些 商品 化 的 数据 仓 
库 系 统 中 实现 。 例 如 ， 可 以 计算 一 个 60 维 的 数据 立方 体 中 的 具有 3 个 或 更 少 维 的 所 有 方 体 ， 
导致 厚度 为 3 的 立方 体外 壳 。 结 果 方 体 的 集合 需要 的 计算 量 和 存储 量 比 整个 60 维 数据 立方 
体 少 得 多 。 然 而 ， 这 种 方法 有 两 个 缺点 。 首 先 ， 需 要 计算 Ca + Cg +60 =36 050 个 方 体 ， 每 
个 都 有 许多 单元 。 其 次 ， 这 种 立方 体外 壳 不 支持 高 维 OLAP， 因 为 〈1) 它 不 支持 在 4 维 或 
更 多 维 上 的 OLAP; (2) 它 甚至 可 能 不 支持 沿 3 个 维 下 钼 ， 如 在 基于 另外 3 个 维 (A, A, 
A) 上 的 常量 选择 得 到 的 数据 子 集 上 ， 沿 3 个 维 (A, As, Ag) FRE, ADWARE BEE 
对 应 的 6 维 方 体 上 计算 〈 注 意 ， 对 于 与 维 (4 ，4:，4:) 相关 联 的 任意 常量 集 ， 如 (a, 
a ，o ) ， 不 存在 已 计算 方 体 (A,, As, Ag) 中 的 对 应 单元 ) 。 

取代 计算 立方 体外 壳 ， 可 以 只 计算 它 的 一 部 分 或 片段 。 本 节 讨 论 OLAP 查询 处 理 的 外 过 
片段 方法 。 这 基于 对 高 维 空间 OLAP 的 如 下 观察 : 尽管 数据 立方 体 可 能 包含 许多 维 ， 但 是 大 
部 分 OLAP 操作 一 次 只 在 少数 维 上 执行 。 换 言 之 ， 一 个 OLAP 查询 很 可 能 忽略 许多 维 ( 即 把 
它们 视 为 不 相关 的 ) ， 固 定 某 些 维 〈 例 如 使 用 查询 常量 作为 例 示 ) ， 而 留 下 几 个 维 进行 操作 
〈 销 取 、 转 轴 等 ) 。 这 是 因为 任何 人 完全 理解 同时 涉及 高 维 空间 中 数 十 个 维 的 数 千 个 单元 的 
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变化 既 不 现实 ， 也 没有 多 大 效果 。 

或 者 更 自然 的 做 法 是 ， 首 先 找 到 某 些 感 兴趣 的 方 体 ， 然 后 沿 一 两 个 维 下 钻 ， 考 察 多 个 相 
关 维 上 的 变化 。 在 任何 时 刻 ， 大 部 分 分 析 者 只 需要 考察 少数 维 的 组 合 。 这 意味 ， 如 果 可 以 在 
高 维 空间 内 部 的 少数 维 上 快速 计算 多 维 聚 集 ， 则 仍然 可 以 获得 快速 OLAP， 而 不 必 物 化 原来 
的 高 维 数据 立方 体 。 计 算 完全 立方 体 〈 甚 至 一 个 冰山 立方 体 或 外 壳 立 方 体 ) 可 能 是 多 余 的 。 
或 者 利用 一 定 预 处 理 的 半 联 机 计算 模型 可 能 提供 更 可 行 的 解 。 给 定 基本 方 体 ， 可 以 首先 做 一 
些 快速 预计 算 〈 即 脱 机 ) 。 然 后 ， 查 询 可 以 使 用 预 处 理 的 数据 上 联机 计算 。 

外 完 片 段 方法 遵循 这 种 半 联 机 计算 策略 。 它 涉及 两 个 算法 : 一 个 计算 外 过 片段 立方 体 ， 
而 另 一 个 用 立方 体 片段 处 理 查 询 。 外 过 片段 方法 能 够 处 理 维度 非常 高 的 数据 库 ， 并 且 可 以 快 
速 联 机 计算 小 的 局 部 立方 体 。 它 利用 信息 检索 和 基于 Web 的 信息 系统 中 很 流行 的 倒 排 索引 
结构 。 

其 基本 思想 如 下 。 给 定 一 个 高 维 数据 集 ， 把 维 划分 成 互 不 相交 的 维 片 段 ， 把 每 个 片段 转 
换 成 倒 排 索引 表示 ， 然 后 构造 立方 体外 壹 片段 ， 并 保持 与 立方 体 单元 相关 联 的 倒 排 索引 。 使 
用 预计 算 的 立方 体外 壳 片 段 ， 可 以 联机 动态 地 组 装 和 计算 所 需要 的 数据 立方 体 的 方 体 单元 。 
这 可 以 通过 倒 排 索引 上 的 集合 交 (set intersection) 操作 有 效 地 完成 。 

为 了 解释 外 壳 片 段 方法 ， 使 用 表 5.4 中 很 小 的 数据 库 作 为 运行 例子 。 令 立方 体 度量 为 
count () 。 其 他 度量 稍 后 讨论 。 首 先 ， 看 看 如 何 构造 给 定数 据 库 的 倒 排 索引 。 

例 5. 9 构造 倒 排 索引 。 对 于 每 个 维 的 每 个 属性 值 ， 列 出 具有 该 值 的 所 有 元 组 的 元 组 标 
识 符 (TID)。 例 如 ， 属 性 值 a, 出 现在 元 组 4 和 元 组 5。a, 的 TID 列表 恰 包 含 2 个 项 ， 即 4 
和 5。 结 果 倒 排 索引 表 显 示 在 表 5.5 中 。 它 保留 了 原 数据 库 的 所 有 信息 。 如 果 每 个 表 目 占 一 
个 单位 内 存 ， 则 表 5.4 和 表 5S. 5 都 占 25 个 内 存单 位 ， 也 就 是 说 ， 倒 排 索引 表 使 用 的 存储 量 


恰好 与 原 数据 库 一 样 多 。 u 
表 5.4 原 数 据 库 表 5.5 MHRS 
TID A B c D E 








a, bi c) d, el 


a bz c d, ei 


vi) e w N 一 
= 
Sr 
D 





“如 何 计算 数据 立方 体 的 外 壳 片 段 ?” 外 壳 片 段 计 算 算 法 Frag- Shells 概括 在 图 5. 14 中 。 
首先 ， 把 给 定数 据 集 的 所 有 维 划 分 成 独立 的 维 组 群 ， 称 为 片段 ( 行 1) 。 扫 描 基 本 方 体 ， 并 
构造 每 个 属性 的 倒 排 索引 表 〈 行 2~ 行 6)。 行 3 是 用 于 非 元 组 计数 coun () 之 外 的 度量 , 稍 
后 介绍 。 对 于 每 个 片段 ， 计 算 完 全 局 部 ( 即 基 于 片段 的 ) 数据 立方 体 ， 而 保留 倒 排 索引 
( 行 7 和 行 8)。 例 如 ， 考 虑 60 个 维 4, ，4, ，…，4a 的 数据 库 。 首 先 把 这 60 个 维 划 分 为 20 
个 长 度 为 3 WE: (A, A, A3), (A, As, As), =, (Aw, As, Ao)o HFEDHE, 
在 记录 倒 排 索引 的 同时 ， 计 算 它 的 完全 数据 立方 体 。 例 如 ， 对 片段 (4,，4,，4;)， 计算 7 
个 方 体 : A, A, A, AA, AA, AAs, AAA 。 此 外 ， 为 这 些 方 体 的 每 个 单元 保留 倒 排 
表 。 即 对 于 每 个 单元 ， 记 录 它 的 关联 TID 列表 。 
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算法 : Frag-Shells. 计算 给 定 的 高 维基 本 表 ( 即 基本 方 体 ) 的 外 壳 片 段 。 
输入 :n 维 (41,…, AD 上 的 基本 方 体 B。 


。 片段 划分 的 集合 {P…, PH 和 它们 对 应 的 《局 部 ) HRH ES Sh 
其 中 PP 表示 维 的 集合 ,并 且 P,U… UP 形成 所 有 n 个 维 : 
。 1D_measure 数 组 ,如 果 度 量 不 是 元 组 计数 count () - 
方法 : 

D KERE CA 4,〉 划 分 成 k 个 片段 的 集合 {P,…, P) (基于 数据 和 查询 分 布 》 
(2) ”扫描 基本 方 体 8 一 次 ,并 做 如 下 工作 { 
(3) 将 每 个 《TID,measure ) 插入 ID_measure 数 组 
(4) for 每 个 维 4, 的 每 个 属性 值 a 
(5) 建立 一 个 倒 排 索引 项 : (a, TIDIist ) 
(6) 上 
(7) ”for 每 个 片段 P 
(8) 取 它 们 对 应 的 TID 列 表 的 交 并 计算 它们 的 度量 ， 构 造 局 部 片段 立方 体 $ 











图 5.14 外 过 片段 计算 算法 


计算 每 个 外 壳 片 段 的 局 部 立方 体 ， 而 不 是 计算 整个 立方 体外 壳 的 优点 可 以 通过 简单 的 计 
(213) 算 明白 。 对 于 60 个 维 的 基本 方 体 ， 根 据 上 述 外 壳 片 段 划分 ， 只 需要 计算 7 x20 = 140 个 方 

体 。 这 与 先前 介绍 的 计算 大 小 为 3 的 立方 体外 壳 的 36 050 个 方 体 形成 鲜明 对 照 ! 注意 上 面 片 
段 划分 简单 地 基于 相 邻 维 分 组 。 更 期 望 的 方法 是 根据 常用 的 维 分 组 进行 划分 。 这 种 信息 可 以 
从 领域 专家 或 者 从 OLAP 的 查询 历史 得 到 。 

回 到 运行 例子 ,看 看 如 何 计算 外 过 片段 。 

例 5.10 计算 外 过 片段 。 假 定 要 计算 大 小 为 3 的 外 壳 片 段 。 首 先 , 将 5 个 维 划分 成 两 
个 片段 (A, B, C) 和 (D,，E)。 对 于 每 个 片段 ， 按 方 体格 自 顶 向 下 深度 优先 序 取 表 5.6 中 
TID 列表 的 交 ， 计 算 完全 局 部 数据 立方 体 。 例 如 ， 为 了 计算 单元 (a1 ， b, *), Ma, Mb, 
的 TID 列表 的 交 ， 得 到 一 个 新 列表 12，31。 方 体 4B 显示 在 表 5.6 中 。 

计算 了 方 体 48 后 ， 通 过 取 表 5.6 和 表 5.5 行 的 所 有 逐 对 组 合 的 交 ， 可 以 计算 方 体 4BC。 
注意 ， 因 为 单元 (a,，b。) 为 空 ， 根 据 先 验 性 质 ， 在 随后 的 计算 中 可 以 丢弃 它 。 同 样 的 过 程 可 以 
用 来 计算 片段 (D, E)， 它 完全 独立 于 (4，B，C) 的 计算 。 方 体 DE 显示 在 表 5.7 th, m 











表 5.6 方 体 AB 
单元 交 TID 列表 列表 长 度 
(a,, b) {1, 2, 3f m {1, 4, 5} Ht 1 
(a,, 6) 11, 2, 3} N 42, 3} 12, 3] 2 
(az, bi) 14, 5} N {1, 4, 5} 14, 5} 2 
(az, bz) 14, 5} N 42, 3} it 0 
CC 
表 5.7 方 体 DE 
单元 交 TID 列表 列表 长 度 
(di, €) 11, 3,4, 5} N 11, 2} {1} 1 
(Cdi, e) 11, 3,4, 5| N {3, 4} 13, 4} 2 
(di, @) 11, 3, 4, 5} N {5} {5} 1 
(di, €) {2h mn 41, 2} 12} 1 
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如 果 冰 山 条 件 中 的 度量 是 count () (元 组 计数 ) ， 则 不 再 需要 引用 原 数 据 库 ， 因 为 TID 
列表 的 长 度 就 等 于 元 组 计数 。“ 如 果 计 算 其 他 度量 ， 如 average () ,需要 引用 原 数据 库 吗 ?” 
实际 上 ， 可 以 建立 和 参考 ID_measure 数组 ， 存 放 需 要 计算 的 其 他 度量 。 例 如 ， 为 了 计算 av- 
erage () ,让 /D_measure 数组 为 每 个 单元 存放 3 个 元 素 (TID, item_count, sum) ( 见 图 
5. 14 外 过 计算 算法 行 3) 。 每 个 聚集 单元 的 average () 只 需要 访问 该 ID_measure 数组 ,用 
sum()/item_count() 计算 ,考虑 具有 10 个 元 组 的 数据 库 ，TID、item_count 和 sum 每 
个 用 4 FERR, ID_ measure 数组 需要 12MB, 而 对 应 的 60 维 的 数据 库 需 要 
(60 +3) x4x10 =252MB (假定 每 个 属性 占 4 字 节 ) 。 显 然 ，1D_measure 数组 是 比 对 应 的 高 
维 数据 库 更 紧凑 的 数据 结构 ， 更 有 可 能 放 在 内 存 中 。 

为 了 解释 ID_measure 数组 的 设计 ， 看 看 下 面 的 例子 。 

例 5. 11 计算 以 average () 为 度量 的 立方 体 。 设 表 5. 8 显示 一 个 销售 数据 库 ， 其 中 每 
个 元 组 有 两 个 相关 联 的 值 ， 如 item count 和 sum, Hth item count 是 销售 的 商品 计数 。 

为 了 以 average () 为 度量 计算 该 数据 库 的 数据 立方 体 ， 每 个 单元 需要 一 个 TID 列表 : 
171D, ，…，TID,| 。 因 为 每 个 TID 唯一 地 与 一 个 特定 度量 值 的 集合 相关 联 ， 所 以 所 有 的 进 一 
步 计算 只 需要 取 与 该 列表 中 的 元 组 相关 联 的 度量 值 。 换 言 之 ， 通 过 将 历 _measure 数组 保留 
在 内 存 用 于 联机 处 理 ， 就 可 以 处 理 复杂 的 代数 度量 ， 如 平均 值 、 方 差 和 标准 差 。 表 5. 9 显示 
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对 于 例 5. 11 应 当 保留 哪些 ， 它 比 数据 库 本 身 显著 地 小 。 a 


#58 ”具有 两 个 度量 值 的 数据 库 


TID A B c D E item count sum 











与 完全 数据 立方 体 相 比 ， 外 壳 片 段 的 存储 空间 和 计算 时 间 开 销 都 可 以 忽略 。 注 意 ， 通 过 
在 单个 片段 中 包含 所 有 的 维 ， 也 可 以 使 用 Frag-Shells 算法 计算 完全 数据 立方 体 。 由 于 方 体格 
的 计算 次 序 是 自 顶 向 下 和 深度 优先 的 (类 似 于 BUC) ， 所 以 如 果 用 来 构造 冰山 立方 体 ， 那 么 
该 算法 也 可 以 进行 Apriori 前 枝 。 

“一 旦 计算 了 外 壳 片 段 ， 如 何 使 用 它们 来 回答 OLAP 查询 ?” 给 定 预计 算 的 外 过 片段 ， 可 
以 将 立方 体 空间 看 做 虚拟 立方 体 ， 并 且 联 机 进行 关于 该 立方 体 的 OLAP 查询 。 通 常 ， 有 两 种 
可 能 的 查询 类 型 : (1) 点 查询 ; (2) 子 立方 体 查 询 。 

在 点 查询 (point query) 中 ， 立 方 体 中 所 有 相关 的 维 都 被 例 示 ( 即 相 关 的 维 集合 中 没有 
被 询问 的 维 )。 例 如 ， 在 nn 维 数据 立方 体 AA, A, 中 ， 点 查询 可 能 具有 如 下 形式 lA, A, 
Ay: M?), 其 中 A, = fan, ae}, hs = fas,, ass, as}, Ay = üy, 而 M 是 每 个 对 应 立方 体 
单元 的 询问 度量 。 对 于 具有 少量 维 的 立方 体 ， 可 以 使 用 “ * ”表示 “不 关心 ” 的 位 置 ， 那 
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里 的 维 是 不 相关 的 ， 也 就 是 说 ， 既 不 被 询问 也 不 被 例 示 。 例 如 ， 在 对 表 5$. 4 中 数据 库 的 查询 
(az, bi, ¢, di, *: count()?) 中， 前 4 个 维 的 值 分 别 例 示 为 an bi cn di, MEA 
一 个 维 是 不 相关 的 ， 并 且 count () (在 此 为 元 组 计数 ) 是 被 询问 的 度量 。 

在 子 立 方 体 查询 (subcue query) 中 ,立方 体 中 至 少 有 一 个 相关 维 被 询问 。 例 如 ,在 mn 
维 数据 立方 体 ALA, A, FP, 子 立 方 体 查询 可 能 具有 如 下 形式 《4 ，4;?，4，，42 ?: M2), 
FER A, = lay, ag}. Ag =O, As 和 42 是 被 询问 的 维 ， 而 M 是 被 询问 的 度量 。 对 于 具有 人 少 
量 维 的 立方 体 ， 可 以 使 用 “ * ”表示 不 相关 的 维 ， 而 “?” 表示 被 询问 的 维 。 例 如 ， 在 查询 
《aa,?，c，*# ,?; count()?) 中， 第 一 和 第 三 个 维 的 值 分 别 被 例 示 为 a, 和 c,， 而 第 四 个 
维 是 不 相关 的 ， 第 二 和 第 五 个 维 是 被 询问 的 。 子 立方 体 查询 计算 被 询问 维 的 所 有 可 能 的 值 组 
合 。 它 本 质 上 是 返回 由 被 询问 的 维 组 成 的 局 部 数据 立方 体 。 

“如 何 使 用 外 党 片段 回答 点 查询 ?” 由 于 点 查询 显 式 地 提供 相关 维 上 被 例 示 的 变量 集 ， 
通过 找 出 最 合适 的 〈 即 逐 维 完全 匹配 的 ) 片段 ， 取 出 并 与 相关 联 的 TID 列表 取 交 ， 可 最 大 
限度 地 利用 预计 算 的 外 壳 片段 。 

设 点 查询 形 如 《〈aw，%，a，m: MI), EP a 代表 维 4; 被 例 示 的 值 的 集合 ，a;、a、 
a, 等 类 似 。 首 先 ， 检 查 外 过 片段 模式 ， 确 定 A. An A, ALA, 中 哪些 维 在 相同 的 片段 中 。 假 
设 4 和 4 在 同一 个 片段 中 ,而 A 和 4, 在 另外 两 个 片段 中 。 使 用 例 示 a; Ma, Wih A, 和 
本 预计 算 的 2-D 片段 上 对 应 的 TID 列表 ， 并 使 用 例 示 a, 和 ww ， 分 别 取 出 维 4, 和 A, 预计 算 
的 1-D 片段 上 对 应 的 TID 列表 。 得 到 的 TID 列表 取 交 ， 得 到 该 TID 列表 。 然 后 使 用 这 个 表 导 
出 最 终 单 元 集 的 指定 度量 (例如 ， 通 过 对 元 组 count () 取 列 表 长 度 , 或 通过 从 ID_measure $ 
组 取 item count () 和 sum() 来 计算 average () ) 。 

例 5.12 点 查询 。 假设 对 于 表 5.4 中 的 数据 库 和 例 5.10 介绍 的 预计 算 划 分 (4，B， 
C) A (D, E) 的 外 过 片段 ， 用 户 想 计算 点 查询 la, bi, ¢,, di, *: count()?). 根据 
预计 算 的 片段 ， 该 查询 划分 成 两 个 子 查询 : la, bi, cl, *, x) A Ca, #, *, d, 
* ) 。 这 两 个 子 查询 最 合适 的 预计 算 外 壳 片 段 是 4BC AD, BUA EAN TID 列表 ， 
返回 两 个 列表 : 14, 5} 和 11, 3, 4, 51。 它 们 的 交 是 列表 14，5| ， 长 度 为 2。 因此 ， 最 
终 的 回答 是 count () =2。 = 

“如 何 使 用 外 党 片段 回答 子 立 方 体 查询 ?” 子 立方 体 查询 返回 一 个 基于 例 示 维和 被 询问 
维 的 局 部 数据 立方 体 。 这 种 数据 立方 体 需 要 以 多 维 方式 聚集 ， 使 得 用 户 可 以 使 用 联机 分 析 处 
理 〈 如 钻 取 、 切 块 、 转 轴 等 ) ， 灵 活 地 操纵 和 分 析 。 由 于 例 示 的 维 通常 提供 具有 高 度 选择 性 
的 常量 ， 大 幅度 压缩 了 有 效 TID 列表 的 大 小 ， 因此 应 当 最 大 限度 地 利用 预计 算 的 外 壳 片 段 ， 
找 出 最 适合 例 示 维 集合 的 片段 ， 取 出 并 求 相 关联 的 TID 列表 的 交 ， 导 出 归 约 的 TID 列表 。 这 
个 列表 可 以 用 来 与 被 询问 维 组 成 的 最 合适 的 外 壳 片 段 求 交 。 这 将 产生 相关 的 和 被 询问 的 基本 
方 体 。 然 后 ， 使 用 有 效 的 联机 计算 立方 体 算法 ， 该 基本 立方 体 可 以 用 来 计算 相关 的 子 立 
方 体 。 

设 子 立方 体 查询 形 如 〈a，o ，44?，a，， A,?: M?), EH a a; Ala, 分 别 表示 维 4,、 
机 和 水 AREKEA, A MA 代表 两 个 被 询问 维 。 首 先 ， 检查 外 过 片段 模式 ， 确 定 
(1) A, A, 和 4,; (2) A, RIA, 中 的 哪些 维 在 相同 的 片段 中 。 假 设 A, 和 4 属于 相同 的 片段 ， 
A, ALA, 也 属于 相同 的 片段 ,但 是 A, 在 不 同 的 片段 。 使 用 例 示 a 和 a， 取出 为 4， 和 4 预计 
算 的 2-D 片段 中 对 应 的 TID 列表 ， 然 后 使 用 例 示 a, REX A, 预计 算 的 1-D 片段 中 的 TID 
列表 ， 再 使 用 非 例 示 〈 即 所 有 可 能 的 值 ) ， 分 别 取出 为 4 和 A, 预计 算 的 1-D 片段 上 的 TID 
列表 。 取 这 些 TID 列表 的 交 ， 导 出 最 终 的 TID 列表。 该 列表 用 来 从 ID_measure 数组 取出 对 应 
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的 度量 ， 导 出 2 维 (A, 4) 的 2-D 子 立 方 体 的 “基本 方 体 ”。 基 于 导出 的 基本 方 体 ， 可 以 
使 用 快速 的 立方 体 计算 算法 计算 这 个 2-D 立方 体 。 然 后 ， 这 个 计算 出 的 2-D 立方 体 就 可 以 用 
于 OLAP 操作 。 

例 5.13 子 立方 体 查 询 。 假 设 用 户 想 计算 表 5.4 中 数据 库 的 子 立方 体 查 询 《a,，b) ,?， 
* ,?: count ()?)， 并 且 外 过 片段 已 经 预计 算 ， 如 例 5. 10 所 示 。 根 据 被 例 示 的 维和 被 询问 
的 维 ， 该 查询 可 以 分 成 三 个 最 合适 的 片段 : 48、C 和 忆 ， 其 中 4B 具有 例 示 (a,, b,). BHE 
这 些 划分 的 TID 列表 ， 分 别 返 回 : (a,, b): 14, 51、(c): {1, 2,3,4, 5) 和 | Ce: 
11, 2}), (e: 13, 41)，(e;: {51)}。 这 些 对 应 的 TID 列表 的 交 包 含 一 个 具有 两 个 元 组 
的 方 体 : | Cea, e): 1442, (ey, es): 151|}。 可 以 使 用 这 个 基本 方 体 计算 2-D 数据 立方 
体 ， 计 算是 平凡 的 。 二 

对 于 大 型 数据 集 ，2-D 或 3-D 的 片段 通常 导致 合理 的 外 这 片段 存储 开销 和 快速 响应 时 
间 。 使 用 外 壳 片段 查询 比 使 用 存放 在 磁盘 上 的 预计 算数 据 立方 体 回 答 查 询 显 著 快 。 与 完全 立 
方 体 计算 相 比 ， 如 果 被 询问 的 维 少 于 4 个 ， 则 推荐 Frag- Shells; 否则 ， 可 以 使 用 更 有 效 的 算 
法 ， 如 Star- Cubing， 进 行 快速 联机 立方 体 计算 。 可 以 容易 地 扩展 Frag- Shells， 进 行 增 量 更 
新 ， 其 细节 留 作 习 题 。 


5. 3 使 用 探索 立方 体 技术 处 理 高 级 查询 


数据 立方 体 并 不 限于 上 面 解 释 的 、 用 于 典型 商务 数据 仓库 应 用 的 、 简 单 的 多 维 结构 。 本 
节 介 绍 的 方法 将 进一步 发 展 数据 立方 体 技术 ， 有 效 地 处 理 高 级 查询 类 型 。5. 3. 1 节 考 察 抽样 
立方 体 。 数 据 立方 体 技术 的 这 种 扩展 可 以 用 来 回答 样本 数据 (如 调查 数据 ， 它 提供 感 兴趣 
的 目标 数据 总 体 的 样本 或 子 集 ) 上 的 查询 。5. 3. 2 节 解 释 如 何 计 算 排 序 立 方 体 ， 以 便 回答 
top-k 查询 ， 如 按照 用 户 指定 的 某 种 标准 ,“ 找 出 top-5 WARE”. 

基本 数据 立方 体 已 经 进一步 扩充 到 各 种 复杂 的 数据 类 型 和 新 的 应 用 。 例 如 ， 用 于 地 理 数 
据 仓库 设计 与 实现 的 空间 数据 立方 体 ， 用 于 多 媒体 数据 (包含 图 像 和 视频 ) 多 维 分 析 的 多 
媒体 立方 体 。RFID 数据 立方 体 处 理 射 频 识 别 (RFID) 的 压缩 和 多 维 分 析 。 文 本 立方 体 和 论 
题 立方 体 是 分 别 为 多 维 文本 数据 库 (包含 结构 属性 和 述 事 文本 属性 ) 中 向 量 空间 模型 和 生 
成 语言 模型 的 应 用 开发 的 。 


5.3.1 抽样 立方 体 ， 样本 数据 上 基于 OLAP 的 挖掘 


在 收集 数据 时 ， 常 常 只 收集 我 们 想 要 收集 数据 的 一 个 子 集 。 在 统计 学 上 ， 这 称 为 收集 数 
据 总 体 的 样本 。 结 果 数 据 称 为 样本 数据 。 数 据 常常 被 抽样 ， 以 便 节省 费用 、 人 力 、 时 间 和 原 
料 。 在 许多 应 用 中 ， 收 集 感 兴趣 的 整个 数据 总 体 是 不 现实 的 。 例 如 ， 在 电视 评级 和 选举 前 民 
意 调查 研究 时 ， 不 可 能 收集 每 个 人 的 意见 。 已 公布 的 大 部 分 测评 或 民意 调查 都 依赖 于 有 待 分 
析 数 据 的 样本 。 结 果 被 外 推 到 总 体 ， 并 且 关 联 到 某 些 统计 量 ， 如 置信 区 间 。 置 信 区 间 告 诉 我 
们 结果 的 可 靠 程度 。 基 于 抽样 的 统计 调查 是 许多 领域 ， 如 政治 、 卫 生 保 健 、 市 场 调查 、 社 会 
和 自然 科学 的 常用 工具 。 

“样本 数据 上 的 OLAP 效果 如 何 ?” 传 统 上 ，OLAP 拥有 整个 数据 总 体 ， 而 用 样本 数据 只 
有 一 个 小 的 子 集 。 如 果 试 图 把 传统 的 OLAP 工具 用 于 样本 数据 ， 则 将 遇 到 两 个 挑战 。 第 一 ， 
在 多 维 意义 下 ， 样 本 数据 往往 过 于 稀 朴 。 当 用 户 在 数据 上 下 钼 时 ， 很 容易 销 到 只 有 很 少 样本 





© 即 ， (a, bi), (c) 和 (e3) AY TID 列表 的 交 是 14}, 
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或 没有 样本 的 点 ， 即 使 整体 样本 很 大 时 也 会 如 此 。 传 统 的 OLAP 简单 地 使 用 可 用 的 数据 来 计 
算 查 询 回答 。 基 于 小 样本 推断 对 总 体 回答 可 能 产生 误导 : 样本 中 的 单个 离 群 点 或 微小 偏 倚 都 
可 能 显著 地 扭曲 回答 。 第 二 ， 使 用 样本 数据 ,统计 学 方法 将 用 来 提供 可 靠 性 度量 (如 置信 
区 间 )， 指 出 关于 总 体 ， 查 询 回 答 的 质量 。 传 统 的 OLAP 没有 配备 这 样 的 工具 。 

引 人 和 人 抽样 立 方 体 架 构 旨 在 处 理 上 述 问 题 。 

1. 抽样 立方 体 架构 

抽样 立方 体 (sampling cube) 是 一 种 存储 样本 数据 和 它们 多 维 聚 集 的 数据 立方 体 结构 。 
它 支持 样本 数据 上 的 OLAP。 它 计算 置信 区 间 ， 作 为 多 维 查询 的 质量 度量 。 给 定 一 个 样本 数 
据 关系 尽 〈 即 基本 方 体 ) ， 抽 样 立 方 体 Ci 通常 计算 样本 均值 、 样 本 标准 差 和 其 他 针对 任务 
的 度量 。 

在 统计 学 中 ， 置 信 区 间 用 于 指示 估计 的 可 靠 性 。 假 设 要 估计 给 定 电视 剧 观众 的 平均 年 
龄 。 我 们 有 这 个 数据 总 体 的 样本 数据 ( 子 集 )。 比 如 ， 样 本 均值 是 35 岁 。 这 也 成 为 对 观众 
总 体 的 估计 ， 但 是 对 35 岁 也 是 真正 总 体 均值 有 多 大 把 握 ?由 于 抽样 误差 ， 样 本 均值 恰好 等 
于 真正 总 体 均 值 的 可 能 性 不 大 。 因 此 ， 需 要 用 某 种 方法 限定 我 们 的 估计 ， 指 出 误差 的 一 般 幅 
度 。 通常 ， 用 计算 置信 区 间 来 表示 。 置 信 区 间 是 一 个 以 给 定 的 高 概率 涵盖 真正 总 体 值 估计 的 
值 域 。 对 于 我 们 的 例子 ， 置 信 区 间 可 以 是 “在 95% 时， 实际 均值 变化 不 会 超过 +/ -两 个 标 
准 差 ”"。( 回忆 一 下 ， 标 准 差 是 一 个 数 ， 可 以 用 2. 2. 2 节 给 出 的 公式 计算 。) 置信 区 间 总 是 被 
一 个 置信 水 平 限制 。 在 我 们 的 例子 中 ， 和 置信 水 平 是 95% 。 

置信 区 间 计 算 如 下 。 设 x 是 样本 的 集合 。 样 本 的 均值 记 作 x， 而 x 中 的 样本 个 数 记 作 lo 
假定 总 体 的 标准 差 未 知 ，x 的 样本 标准 差 为 s。 给 定期 望 的 置信 水 平 ，x 的 置信 区 间 为 


Xt, Gs (5.1) 
其 中 是 与 置 信 水 平 相关 的 临界 小 值 ， 而 5 = 万 是 均值 的 估计 标准 误差 。 为 了 找 出 适当 的 


i.， 指 定期 望 的 置信 水 平 (例如 95% ) MARR (1-1), 
重要 的 是 ， 注 意 计算 置信 区 间 所 涉及 的 计算 是 代数 的 。 看 看 (5.1) 式 中 的 三 项 。 第 一 
项 是 均值 x， 它 是 代数 的 ; 第 二 项 是 临界 t- 值 ， 通 过 查找 计算 ， 并且 关 于 x 依赖 于 1， 是 一 个 


ABER: BEDR =>, MERREM Yr ) 与 平方 和 ( 立志 )， 则 它 也 是 代数 


的 。 由 于 所 涉及 的 项 都 是 代数 的 或 分 布 的 ， 因 此 置信 区 间 的 计算 是 代数 的 。 实 际 上 ， 由 于 均 
值 和 置信 区 间 都 是 代数 的 ， 在 任何 单元 ， 有 三 个 值 就 足以 计算 它们 ， 这 三 个 值 都 是 分 布 的 或 
代数 的 : 

(1) 1 


(2) sum = 2a 


i 
(3) squared sum = >» x 


有 许多 有 效 的 计算 代数 和 分 布 度量 的 方法 (4.2.4 节 ) 。 因 此 ， 前 面 开 发 的 求 立方 体 的 
算法 都 可 以 用 来 有 效 地 构造 样本 立方 体 。 

既然 我 们 已 经 确认 样本 立方 体 可 以 有 效 地 计算 ， 下 一 步 找 出 提升 由 样本 数据 上 的 查询 得 
到 的 结果 置信 度 的 方法 。 

2. 查询 处 理 : 提 升 小 样本 的 置信 度 

数据 立方 体 上 的 查询 可 以 是 点 查询 或 范围 查询 。 不 失 一 般 性 ， 考 虑 点 查询 。 这 里 ， 它 对 
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应 于 样本 立方 体 Ci 的 一 个 单元 。 目 标 是 为 该 单元 中 的 样本 提供 一 个 准确 的 点 估计 。 由 于 该 
立方 体 也 报告 与 样本 均值 相关 联 的 置信 区 间 ， 因 此 存在 对 返回 结果 “可 靠 性 ”的 某 种 度量 。 
如 果 置 信 区 间 很 小 ， 则 可 靠 性 确实 不 错 ; 然而 ， 如 果 和 置信 区 间 很 大 ， 则 可 靠 性 就 成 问题 。 

“为 了 提高 查询 回答 的 可 靠 性 ， 我 们 能 做 什么 ?” 考 虑 什么 因素 影响 置信 区 间 的 大 小 。 
有 两 个 主要 因素 : 样本 数据 的 方差 和 样本 大 小 。 首 先 ， 很 大 的 单元 方差 表明 对 于 预测 而 言 ， 
所 选 的 单元 很 差 。 更 好 的 解 可 能 是 在 查询 单元 下 销 到 更 细节 的 单元 时 ( 即 做 更 细节 的 查 
询 ) 。 其 次 ， 小 样本 可 能 导致 大 的 置信 区 间 。 当 只 有 很 少 样本 时 ， 由 于 自由 度 小 因而 对 应 的 
t, 很 大 。 这 就 可 能 导致 很 大 的 置信 区 间 。 直 观 地 ， 这 人 合情合理。 假设 正 在 计算 美国 人 的 平均 
收入 。 只 问 两 三 个 人 不 会 对 回答 有 很 大 把 握 。 

解决 小 样本 问题 的 最 好 办 法 是 取得 更 多 的 数据 。 幸 运 的 是 ， 立 方 体 中 通常 有 充足 的 数据 
可 用 。 这 些 数 据 不 能 精确 地 匹配 查询 单元 ， 然 而 ， 可 以 考虑 “邻近 ”单元 中 的 数据 。 有 两 
种 办 法 包含 这 种 数据 ， 以 增强 查询 回答 的 可 靠 性 : (1) 方 体内 查询 扩展 考 虚 同 一方 体内 的 
邻近 单元 ; (2) 方 体 间 查询 扩展 考虑 查询 单元 的 更 一 般 版 本 (来 自 父 母 方 体 )。 从 方 体内 查 
询 扩 展开 始 ， 看 看 如 何 做 。 

方法 1: 方 体内 查询 扩展 。 这 里 ， 通 过 包括 与 查询 单元 处 于 同一 方 体 的 邻近 单元 来 扩大 
样本 ， 如 图 5. 15a 所 示 。 我 们 必须 小 心 ， 新 样本 旨 在 提高 回答 的 置信 和 度 ， 而 不 改变 查询 的 


语义 。 








这 样 ， 第 一 个 问题 是 “应 该 扩展 哪些 age~occupation 方 体 
维 ?” 最 佳 候 选 应 该 是 与 度量 值 〈( 待 预测 的 
OO®@ Q 9 $ o 
值 ) 不 相关 或 弱 相 关 的 那些 维 。 在 这 些 维 内 进 





行 扩展 可 能 增加 样本 的 规模 ， 并 且 不 会 改变 查 a) 方 体 内 扩展 把 相同 方 体 中 的 邻近 单元 作为 询问 单元 
询 的 回答 。 考 虑 一 个 被 eduction = “college” 4ge 方 体 occupation 方 体 
All birth_month = “July” 指 定 的 2-D 查询 的 例 
子 。 设 该 立方 体 的 度量 为 平均 收入 。 直 观 地 ， 
教育 与 收入 具有 很 高 的 相关 性 ， 而 生日 月 份 没 
有 。 扩 展 eduction 维 ， 包 含 “graduate” 或 
“high school” 是 有 害 的 。 它 们 可 能 改变 最 终 的 
结果 。 然 而 ， 扩 展 birth_month 维 ， 包 含 其 他 
月 份 值 可 能 是 有 帮助 的 ， 因 为 这 不 太 可 能 改变 图 5.15 BOR. OB oe ats aa ha 
结果 ， 但 会 增加 抽样 规模 。 ? 人 

为 了 精确 地 度量 维 与 立方 体 值 的 相关 性 ， NA AERTS 
THES ECNRAVA AERA. HR, RCA RK ASK, m 
对 标 称 数据 使 用 X 相关 检验 ， 尽 管 也 可 以 使 用 其 他 度量 ， 如 协 方差 。 (这 些 度量 已 经 在 
3.3.2 TAH.) 不 要 用 与 被 预测 值 强 相 关 的 维 作为 扩展 的 候选 。 注 意 ， 由 于 维 与 立方 体 度 
量 的 相关 性 独立 于 具体 的 查询 ， 因 此 应 该 将 它 与 立方 体 度量 一 起 预计 算 和 存储 ， 以 方便 有 效 
的 联机 分 析 。 

选择 用 于 扩展 的 维 后 ， 下 一 个 问题 是 “扩展 应 该 使 用 这 些 维 中 的 哪些 值 ?” 这 依赖 于 被 
考虑 维 的 语义 知识 。 目 标 是 选择 语义 类 似 的 值 ， 使 得 改变 最 终结 果 的 风险 最 小 。 考 虑 age 
维 ， 这 个 维 上 值 的 相似 性 是 显而易见 的 。 值 之 间 存 在 明确 的 〈 数 值 ) 序 。 具 有 数值 或 序数 
数据 (如 education) 的 维 ， 数 据 之 间 在 在 明确 的 序 。 因 此 ， 可 以 选择 接近 被 例 示 的 查询 值 
的 值 。 对 于 数据 立方 体 中 组 织 成 多 层 分 层 结构 的 维 的 标 称 数据 (例如 ，location)， 我 们 应 该 





fo OOODOOO o) 
age-occupation fj W% 
D 方 体 间 扩 展 考虑 父母 方 体 中 的 更 一 般 单元 
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选择 位 于 树 的 相同 分 支 的 那些 值 ( 例 如 ， 相 同 的 地 区 或 城市 ) 。 

通过 在 查询 扩展 时 考虑 附加 的 数据 ， 旨 在 得 到 更 准确 、 更 可 靠 的 回答 。 如 上 所 述 ， 强 相 
关 的 维 因此 被 排除 在 扩展 之 外 。 另 一 种 策略 是 确保 新 的 样本 与 查询 单元 中 已 有 的 样本 具有 
“相同 的 ”立方 体 度 量 值 〈 例 如 ， 平 均 收入 ) 。 两 个 样本 的 二 检验 是 一 种 相对 简单 的 统计 学 
方法 ， 可 以 用 来 确定 两 个 样本 是 否 具有 相同 的 均值 〈 或 其 他 点 估计 值 ) ， 其 中 “相同 ” 意 指 
它们 并 非 显著 不 同 。( 在 8. 5. 5 节 介 绍 使 用 统计 显著 性 检验 选择 模型 时 将 更 详细 地 讨论 。) 

该 检验 确定 两 个 样本 是 否 具有 相同 的 均值 ( 原 假设 ) ， 仅 假定 它们 都 是 正 态 分 布 的 。 如 
果 证 据 表明 两 个 样本 不 具有 相同 的 均值 ， 则 检验 失败 。 此 外 ， 该 检验 可 以 使 用 置信 水 平 作为 
输入 。 这 使 得 用 户 可 以 控制 扩展 的 宽 严 程度 。 

例 5.14 展示 任何 使 用 以 上 介绍 的 方 体内 扩展 策略 来 回答 样本 数据 上 的 查询 。 

例 5. 14 回答 样本 数据 上 查询 的 方 体内 查询 扩展 。 考 虑 一 位 图 书 零 售 商 ， 他 正 试图 学 
习 顾客 年 收入 水 平 的 更 多 知识 。 表 5. 10 给 出 了 一 个 收集 的 调查 数据 的 样本 9。 在 调查 中 ， 
使 用 了 4 个 顾客 属性 : gender, age, education 和 occupation s 


5.10 顾客 调查 样本 数据 















































gender age education occupation | income 

x 23 大 学 教师 85 000 美元 
女 J 40 大 学 程序 员 50 000 美元 
女 al | 大 学 程序 员 | 52 000 美元 
女 50 研究 生 教师 90 000 美元 
女 62 研究 生 CEO 500 000 美元 
男 25 高 中 程序 员 50 000 美元 
男 28 高 中 CEO 250 000 美元 
男 40 大 学 教师 80 000 美元 
男 50 大 学 程序 员 45 000 美元 


设 顾客 收入 上 的 查询 为 “age =25”， 其 中 用 户 指定 了 95% 的 置信 水 平 。 假 定 查询 返回 
income 值 50000 美元 ， 置 信 区 间 相 当 大 。 还 假设 该 置信 区 间 大 于 预先 设 定 的 阔 值 ， 并 且 发 
现在 这 个 数据 集中 ，age 维 与 income 只 有 很 小 的 相关 性 。 因 此 ， 方 体内 扩展 从 age 维 开始 。 
最 近 的 单元 是 “age =23”， 它 返回 income 值 85 000 美元 。 两 个 样本 的 +- 检验 在 95% BY EX 
水 平 下 通过 ， 因 此 该 查询 扩展 ; 现在 查询 是 “age = 123，25}"”， 有 具有 上 比 原来 更 小 的 置信 区 
间 。 然 而 ， 这 仍然 比 阔 值 大 ， 因 此 继续 扩展 到 下 一 个 最 近 的 单元 “age =28”， 它 返回 income 
值 250 000 美元 。 这 个 单元 与 原 查询 单元 之 间 的 两 个 样本 的 二 检验 失败 ， 因 此 该 单元 被 忽略 。 
接 下 去 ,检查 “age =31”， 它 通过 该 检验 。 现 在 ， 这 三 个 单元 组 合 在 一 起 ， 置 信 区 间 小 于 
阅 值 ， 扩 展 在 “age = |23, 25, 31)” 445k, 

在 这 三 个 单元 上 ，income 的 均值 为 (85 000 + 50 000 +52 000) /3 =62 333 美元 ， 返 回 它 
作为 查询 的 回答 。 它 具有 较 小 的 置信 区 间 ， 因 而 比 不 考虑 方 体 内 扩展 返回 的 响应 50 000 美 
元 更 可 靠 。 = 

方法 2: 方 体 间 查 询 扩 展 。 在 这 种 情况 下 ， 通 过 考察 更 一 般 的 单元 进行 扩展 ， 如 图 5. 15b 





但 ”使 用 的 样本 很 小 ， 可 能 没有 统计 意义 。 为 了 便于 解释 ， 我 们 忽略 这 一 点 。 
O ”作为 例子 ， 尽 管 只 有 一 个 样本 ， 我 们 仍然 假定 这 为 真 。 实 践 中 ， 需 要 更 多 的 点 来 计算 合法 值 。 
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所 示 。 例 如 ，2-D 方 体 age-occupation 中 的 单元 可 以 使 用 1-D 方 体 age 或 occupation 中 的 父母 
单元 。 把 方 体 间 扩 展 看 做 是 方 体内 扩展 的 极端 情况 ， 其 中 ， 一 个 维 中 的 所 有 单元 都 用 于 扩 
展 。 这 本 质 上 是 设置 该 维 为 * ， 因 而 泛 化 到 较 高 层 方 体 。 

k 维 方 体 在 方 体格 中 有 上 天 个 直接 父母 ， 其 中 每 个 都 是 (下 -1) 维 的 。 数 据 立 方 体 中 有 更 
多 的 祖先 单元 (例如 ， 如 果 多 个 维 同时 上 卷 的 话 ) 。 然 而 ， 只 选择 一 个 父母 ， 使 得 搜索 空间 
容易 驾驭 并 限制 查询 语义 的 改变 。 与 方 体内 扩展 一 样 ， 方 体 间 扩 展 也 不 允许 使 用 相关 的 维 。 
在 不 相关 的 维 中 ， 可 以 进行 两 个 样本 的 -检验 ， 以 便 确 认 父 母 与 查询 单元 具有 相同 的 样本 均 
值 。 如 果 多 个 父母 通过 该 检验 ， 则 可 以 逐渐 调 高 置信 水 平 ， 直 到 只 有 一 个 通过 。 或 者 也 可 以 
同时 使 用 多 个 父母 单元 来 提升 置信 和 度 。 这 种 选择 依赖 于 应 用 。 

例 5.15 回答 样本 数据 上 查询 的 方 体 间 查 询 扩 展 。 给 定 表 5. 10 的 输入 关系 ， 设 income 
上 的 查询 为 “occupation = 教师 Agender = 男 ”"。 表 5. 10 中 只 有 一 个 与 该 查询 匹配 的 元 组 ， 并 
且 它 的 income 值 为 80 000 美元 。 假 设 对 应 的 置信 区 间 大 于 预先 设 定 的 益 值 。 使 用 方 体 间 扩 
展 来 找 出 更 可 靠 的 回答 。 数 据 立 方 体 中 有 两 个 父母 单元 : “gender = 男 ” 和 “occupation = 教 
I” o ERE] “gender = 男 ”( 因 而 置 occupation 为 * ) income 的 均值 为 101 000 美元 。 两 个 
样本 的 -检验 表明， 该 父母 的 样本 均值 显著 地 不 同 于 原来 的 查询 单元 ， 因 此 忽略 它 。 接 下 
去 ， 考 虑 “occupation = 教师 ”。 它 的 income 均值 为 85 000 美元 ， 并 且 通 过 了 两 个 样本 的 t- 检 
验 。 因 此 ， 该 查询 被 扩展 到 “occupation = Bi”, 并且 以 可 接受 的 可 靠 性 返回 income (fi 
85 000 美 元 。 E 

“如 何 确定 选择 哪 种 方法 ， 方 体内 扩展 还 是 方 体 间 扩展 ?” 不 知道 数据 和 应 用 ， 这 -一 问 
题 很 难 回答 。 一 种 在 两 者 之 间 选 择 的 策略 是 考虑 对 查询 语义 改变 的 容忍 程度 。 这 依赖 于 查询 
中 选 定 的 维 。 例 如 ， 用 户 对 age 维 的 语义 改变 的 容忍 度 可 能 比 对 education Ko REE WAHI 
可 能 如 此 之 大 ， 以 至 于 用 户 宁愿 置 age 为 * ( 即 方 体 间 扩展 ) ， 也 不 愿 对 education 做 任何 改 
变 。 这 里 ， 领 域 知 识 是 有 益 的 。 

ESHE, 我 们 只 关注 了 样本 立方 体 的 完全 物化 。 在 许多 实际 问题 中 ， 这 一 般 是 不 可 能 
的 ， 特 别 是 对 于 高 维 人 情况。 例如 ， 实 际 的 调查 数据 很 可 能 包含 超过 50 个 变量 ( 维 )。 样 本 
立方 体 的 规模 将 随 维 数 指数 增长 。 为 了 处 理 高 维 数据 ， 开 发 了 一 种 称 为 样本 立方 体外 沉 的 方 
法 。 它 把 5.2.4 节 的 Frag-Shell 方法 与 上 面 讨论 的 查询 扩展 方法 集成 在 一 起 。 外 壳 仅 计算 整 
个 样本 立方 体 的 一 个 子 集 。 该 子 集 应 该 包含 相对 低 维 的 方 体 (它们 常 被 查询 ) 和 为 用 户 提 
供 最 大 便利 的 方 体 。 细 节 作 为 习题 ， 留 给 感 兴 趣 的 读者 。 该 方法 在 实际 和 人 工 数据 集 上 进行 
了 测试 ， 发 现 对 于 回答 查询 它 是 有 效 的 。 


5.3.2 排序 立方 体 ，top-k 查询 的 有 效 计算 

数据 立方 体 不 仅 有 助 于 多 维 查 询 的 联机 分 析 处 理 ， 而 且 也 有 助 于 搜索 和 数据 挖 气 。 本 节 
引 人 一 种 称 为 排序 立方 体 〈ranking cube) 的 新 的 立方 体 结构 ， 并 且 考 察 它 如 何 有 助 于 top-k 
查询 的 有 效 处 理 。top-k 查询 (或 排序 查询 ) 根据 用 户 指定 的 优选 条 件 ， 只 返回 最 好 的 个 
结果 作为 查询 的 回答 ， 而 不 是 返回 大 量 不 加 区 分 的 结果 。 

结果 按 排 定 的 序 返回 ， 使 得 最 好 结果 在 顶部 。 通常 ， 用 户 指定 的 优选 条 件 由 两 部 分 组 
成 : 一 个 选择 条 件 和 一 个 排序 函数 。top-k 查询 在 许多 应 用 中 都 很 常见 ， 例 如 搜索 Web 数据 
库 、 使 用 近似 匹配 的 大 最 近邻 搜索 、 多 媒体 数据 库 的 相似 性 查询 。 

例 5. 16 top-k 查 询 。 考 虑 一 个 二 手 汽车 联机 数据 库 R， 它 对 每 辆 汽车 维护 如 下 信息 : 
producer (例如 ， 福 特 、 本 田 )、model (例如 ， 托 罗斯 、Accord)、type (例如 ， 小 轿车 、 有 
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HAR). color (例如 ， 红 色 、 银 色 ) transmission 〈( 例 如， 自动 、 手 动 ) price. mileage 
等 。 在 该 数据 库 上 的 典型 的 top-k 查询 是 
Qi: select top 5 * from R 

where producer = “Ford” and type = “sedan” 

order by (price — 10K)? + (mileage — 30K)? asc 
在 R 的 这 些 维 (REE) H, producer 和 type 用 做 选择 维 。 排 序 函 数 在 order by 字句 中 给 
出 。 它 指定 排序 维 price 和 mileage, Q, 根据 排序 函数 ， 搜 索 福特 生产 的 前 5 辆 轿车 。 找 出 的 
记录 根据 排序 函数 按 递增 序 排序 。 排 序 函 数 用 公式 表示 ， 使 得 其 price 和 mileage 最 接近 用 户 
指定 的 值 10 000 美元 和 30 000 美元 的 记录 出 现在 列表 的 顶部 。 = 

该 数据 库 可 能 有 许多 维 可 以 用 于 选择 和 描述 。 例 如 ， 汽 车 是 否 有 电动 门窗 、 空 调和 天 
窗 。 用 户 可 以 选取 维 的 任意 子 集 ， 使 用 他 们 喜欢 的 排序 函数 提出 top-k 查询 。 还 有 许多 类 似 
的 应 用 场景 。 例 如 ， 搜 索 宾 馆 时 ， 排 序 函数 通常 基于 价格 和 到 感 兴趣 区 域 的 距离 构建 。 可 以 
加 上 选择 条 件 ， 比 如 ， 宾 馆 所 处 区 域 、 星 级 、 是 否 提供 赠送 的 服务 或 互联 网 上 网 。 排 序 函 数 
可 以 是 线性 的 、 平 方 的 或 任何 其 他 形式 。 

如 前 面 的 例子 所 示 ， 用 户 不 仅 可 能 提出 专门 的 排序 函数 ， 而 且 还 有 不 同 兴趣 的 数据 子 
集 。 用 户 常常 希望 通过 top 查询 结果 的 多 维 分 析 系统 地 研究 数据 。 例 如 ， 如 果 对 0, 返回 的 
top- 结果 不 满意 ， 则 用 户 可 以 在 producer 维 上 卷 ， 检 查 所 有 小 轿车 上 的 top-k 结果。 问题 的 
动态 性 对 研究 者 提出 了 巨大 挑战 。OLAP 需要 脱 机 预计 算 ， 以 便 多 维 分 析 可 以 联机 进行 ,但 
是 临时 设 定 的 排序 也 数 又 阻止 完全 物化 。 一 种 自然 的 折 中 是 采用 半 脱 机 物化 和 半 联 机 计算 
模式 。 

假设 关系 R 有 选择 维 (4, ，4, ，…，4s) 和 排序 维 (N, ，N,，…，Ns) 。 每 个 排序 维 的 
值 可 以 根据 数据 和 期 望 查询 的 分 布 划分 成 多 个 区 间 。 例 如 ， 对 于 二 手 车 价格 ， 可 以 有 4 个 分 
区 (或 值 域 ) : <5K、[5 -10K)、[10 -15K) 和 >>15K。 可 以 通过 选择 维 上 的 多 维 聚 集 构 
造 排序 立方 体 。 可 以 对 每 个 排序 维 的 每 个 分 区 存放 计数 ， 从 而 使 得 该 立方 体 是 “感知 排序 
的 "。top-k 查询 可 以 通过 如 下 方法 回答 ;在 询问 较 低 优 先 值 域 中 的 单元 前 ， 先 访问 更 优先 的 
值 域 中 的 单元 。 

例 5. 17 使 用 排序 立方 体 回答 top-k 查询 。 假 设 表 5. 11 显示 Cy;， 二 手 车 销售 的 排序 
立方 体 的 物化 (预计 算 的 ) 方 体 。Cwr 是 选择 维 producer Fil type 上 的 方 体 。 对 于 排序 维 price 
和 mileage 的 各 分 区 ， 它 显示 计数 和 对 应 的 元 组 号 (TID), 

表 5. 11 二 手 车 销售 的 排序 立方 体 的 一 个 方 体 
mileage 
30 ~40K 
30 ~40K 




























查询 0, 可 以 通过 以 下 方法 来 回答 : 使 用 选择 条 件 在 方 体 Cwr 中 选择 适当 的 选择 维 值 
(BN, producer =“Ford” 和 type = “sedan”), JE Sb, HE FF pa t “ ( price-10K )? + 
(mileage -30K) ”用 来 找 出 最 接近 匹配 用 户 标准 的 那些 元 组 。 如 果 在 最 接近 的 匹配 单元 中 
找 不 到 足够 多 的 匹配 元 组 ， 则 需要 访问 下 一 个 最 接近 匹配 的 单元 。 甚 至 下 钻 到 较 低层 单元 ， 
观察 与 排序 函数 匹配 的 单元 的 计数 分 布 和 附加 的 标准 ， 比 如 说 型 号 、 维 护 情况 或 其 他 负荷 特 
征 。 只 有 确实 想 知道 更 细节 信息 (如 内 部 照片 ) 的 用 户 才 需要 访问 数据 库 中 的 物理 记录 。 m 
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最 实际 的 top-k 查询 多 半 只 涉及 选择 属性 的 一 个 小 子 集 。 为 了 支持 高 维 排序 立方 体 ， 可 
以 小 心地 选择 需要 物化 的 方 体 。 例 如 ， 可 能 选择 只 物化 包含 单个 选择 维 的 1-D 方 体 。 当 选择 
维 的 数目 很 大 时 ， 这 将 获得 很 低 的 空间 开销 并 且 依然 具有 高 性 能 。 在 某 些 情况 下 ， 可 能 还 存 
在 许多 排序 维 ， 以 支持 偏好 很 不 相同 的 多 个 用 户 。 例 如 ， 购 买 者 可 能 搜索 住宅 ， 考 虑 如 价 
格 、 与 学 校 或 购物 中 心 的 距离 、 住 宅 年 数 、 房 屋面 积 、 税 额 等 因素 。 在 这 种 情况 下 ， 一 个 可 
能 的 解 是 创建 一 个 多 数据 划分 ， 每 个 包含 排序 维 的 一 个 子 集 。 查 询 处 理 可 能 需要 在 涉及 多 个 
数据 划分 的 联合 空间 上 搜索 。 

总 之 ， 排 序 立 方 体 的 一 般 原理 是 物化 选择 属性 集 上 的 立方 体 。 使 用 排序 维 上 基于 区 间 的 
划分 使 得 排序 立方 体 可 以 有 效 而 灵活 地 支持 用 户 的 临时 查询 。 为 了 有 效 计 算 和 处 理 查询 ， 基 
于 这 种 框架 ， 已 经 开发 了 多 种 实现 技术 和 查询 优化 方法 。 
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数据 立方 体 创建 了 灵活 而 强 有 力 的 手段 ， 对 数据 的 子 集 分 组 和 聚集 。 它 们 使 得 用 户 可 以 
在 多 维 组 合 和 变化 的 聚集 粒度 上 探索 数据 。 这 种 能 力 极 大 地 开阔 了 分 析 的 范围 ， 有 助 于 从 数 
据 中 有 效 地 发 现 有 趣 的 模式 和 知识 。 立 方 体 空间 的 使 用 使 得 数据 空间 更 有 意义 、 更 容易 
处 理 。 

本 节 介 绍 多 维 数据 分 析 的 方法 。 这 些 方法 使 用 数据 立方 体 ， 在 变化 的 粒度 上 把 数据 组 织 
成 直观 的 区 域 。5. 4. 1 节 介 绍 预测 立方 体 ， 一 种 有 利于 多 维 空间 预测 建 模 的 多 维 数据 挖 气 技 
术 。5. 4. 2 节 介 绍 如 何 构造 多 特征 立方 体 。 它 支持 涉及 多 粒度 上 多 个 依赖 聚集 的 复杂 的 分 析 
查询 。 最 后 ，5. 4. 3 节 介 绍 一 种 用 户 系 统 地 探索 立方 体 空间 的 交互 式 方法 。 在 这 种 基于 异常 
的 、 发 现 驱动 的 探索 中 ， 数 据 中 有 趣 的 例外 或 异常 将 被 自动 检测 出 来 ， 并 且 以 可 视 化 的 提示 
标记 显示 给 用 户 。 


5.4.1 预测 立方 体 : 立方 体 空间 的 预测 挖掘 

最 近 ， 研 究 人 员 把 他 们 的 注意 力 转 向 多 维 数据 挖掘 ， 发 现 变化 的 维 组 合 和 变化 的 粒度 的 
知识 。 这 种 控 握 又 称 为 探索 式 多 维 数据 挖 气 或 联机 分 析 挖 气 〈OnLine Analytical Data Mining, 
OLAM) 。 多 维 数据 空间 巨大 。 在 准备 数据 时 ， 如 何 识别 用 于 探索 的 感 兴趣 的 子 空间 ?应 该 
在 什么 粒度 上 聚集 数据 ? 立方 体 空间 的 多 维 数据 挖掘 在 各 种 粒度 上 把 感 兴趣 的 数据 组 织 成 直 
观 的 区 域 。 它 在 这 些 区域 上 系统 地 应 用 各 种 数据 挖掘 技术 分 析 和 挖掘 数据 。 

至 少 有 4 种 方法 可 以 把 OLAP 风格 的 分 析 与 数据 挖掘 技术 融合 在 一 起 。 

(1) 使 用 立方 体 空 间 为 数据 挖 所 定义 数据 空间 。 立 方 体 空间 的 每 个 区 域 代表 -一 个 数据 
子 集 ， 和 希望 从 中 找到 有 趣 的 模式 。 立 方 体 空间 是 由 专家 设计 的 、 信 息 丰 富 的 维 分 层 结构 定义 
的 集合 ， 而 不 仅仅 是 数据 的 任意 子 集 。 因 此 ， 立 方 体 空 间 的 使 用 使 得 数据 空间 有 意义 并 且 更 
容易 处 理 。 

(2) 使 用 OLAP 查询 为 挖 气 产 生 特征 和 目标 。 有 了 时， 特征 甚至 (希望 学 习 预 测 的 ) 目 
标 都 可 以 自然 地 定义 为 立方 体 空间 区 域 上 的 OLAP 聚集 查询 。 

G) 使 用 数据 挖 据 模 型 作为 多 步 控 气 过 程 的 构件 。 立 方 体 空间 中 的 多 维 数据 控 掘 可 能 
由 多 个 步骤 组 成 ， 其 中 数据 挖掘 模型 可 以 看 做 用 于 描述 感 兴趣 的 数据 集 的 构件 ， 而 不 是 最 终 
结果 。 

(4) 使 用 数据 立方 体 计 算 技术 加 快 重复 模型 的 构建 。 立 方 体 空间 中 的 多 维 数据 挖 气 可 
能 为 每 个 候选 数据 空间 建立 一 个 模型 ， 这 通常 代价 高 昂 而 不 可 行 。 然 而 ， 基 于 数据 立方 体 计 


147 


227 





148 - 第 5 章 数据 立方 体 技术 


算 技 术 ， 通 过 周密 的 安排 ， 在 不 同 候选 模型 构造 之 间 共 享 计算 ， 有 效 的 挖 握 是 可 以 做 到 的 。 
本 节 研 究 预测 立方 体 。 这 是 一 个 多 维 数据 挖掘 的 范例 ， 其 中 立方 体 空间 的 探索 旨 在 完 
成 预测 任务 。 预 测 立方 体 (prediction cube) 是 一 种 立方 体 结构 ， 它 存储 多 维 数据 空间 中 
的 预测 模型 ， 并 以 OLAP 方式 支持 预测 。 回 忆 一 下 ， 在 数据 立方 体 中 ， 每 个 单元 值 都 是 在 
该 单元 中 数据 子 集 上 计算 的 聚集 数值 (例如 ，ceunt) 。 然 而 ， 预 测 立 方 体 的 每 个 单元 值 
都 是 通过 对 建立 在 该 单元 数据 子 集 上 的 预测 模型 求 值 计算 的 ， 因 此 代表 对 该 数据 子 集 行 
为 的 预测 。 
预测 立方 体 不 是 把 预测 模型 看 做 最 终结 果 ， 而 是 使 用 预测 模型 作为 构件 来 定义 数据 子 集 
的 兴趣 度 ， 即 它们 识别 指示 更 准确 预测 的 数据 子 集 。 这 最 好 用 一 个 例子 解释 。 
例 5. 18 用 于 识别 有 趣 立 方 体 子 空间 的 预测 立方 体 。 假 设 公司 有 一 张 顾客 表 ， 包 括 属 
性 time (有 两 个 粒度 : month 和 year) 、location (有 两 个 粒度 : state Hl country) 、gender、sal- 
ary， 和 一 个 类 标号 属性 valued_customer。 经 理 要 分 析 关 于 特定 时 间 和 地 点 ， 一 位 顾客 是 否 是 
228] 贵客 的 决策 过 程 。 尤 其 是 ， 他 对 如 下 问题 感 兴 趣 :“ 什 么 时 间 和 地 点 ， 一 位 顾客 的 重要 性 高 
度 依赖 于 顾客 的 性 别 ?” 注 意 ， 他 相信 时 间 和 地 点 对 于 预测 重要 顾客 起 作用 ,但 是 对 于 该 任 
F, 它们 在 什么 粒度 依赖 于 性 别 ? 例 如， 使 用 | month, country! 进行 分 析 比 使 用 | year, 
state} 好 吗 ? 
考虑 数据 表 D (A, 顾客 表 ) 。 设 和 是 没有 定义 概念 分 层 的 属性 集合 〈 例 如 ，gender、 
salary), WY 是 类 标号 属性 (例如 ，valued_customer) ， 而 Z 是 多 层 属 性 的 集合 ， 即 定义 了 
概念 分 层 的 那些 属性 (例如 ， time, location), it V 是 定义 其 预测 性 的 属性 集合 。 在 我 们 的 
ATH, BRA {gender}, V 在 数据 子 集 上 的 预测 性 可 以 用 在 该 子 集 上 使 用 建立 的 预 
测 Y 的 模型 的 精度 与 在 该 子 集 上 使 用 和 -V (例如 ，{ salary} ) 建立 的 预测 Y 的 模型 的 精度 
之 差 计 算 。 直 觉 是 ， 如 果 这 个 差 很 大 ， N) V 必定 对 预测 类 标号 Y 起 重要 作用 。 
给 定 属性 的 子 集 V 和 一 个 学 习 算 法 ， 在 粒度 《LL ，…，4》 (例如 ，《year，stat) ) 上 的 
预测 立方 体 是 一 个 d 维 数组 ， 其 中 每 个 单元 (例如 ，[2010，Tllinois]) 的 值 是 在 该 单元 
(例如 ,顾客 表 中 time 为 2010，location 为 Minois 的 记录 ) 定义 的 子 集 上 估计 的 V 的 预 
测 性 。 = 
在 预测 立方 体 上 支持 OLAP 上 卷 和 下 钻 操 作 是 一 个 挑战 ， 需 要 在 不 同 的 粒度 物化 单元 
值 。 为 简单 起 见 ， 可 以 只 考虑 完全 物化 。 一 种 完全 物化 预测 立方 体 的 朴素 方法 是 无 一 遗漏 地 
建立 模型 ， 并 对 每 个 单元 和 每 个 粒度 评估 它们 。 如 果 基 本 数据 集 很 大 ， 则 这 种 方法 开销 非常 
大 。 作 为 一 种 更 可 行 的 替代 ,已 经 开发 了 一 种 称 为 基于 概率 的 组 合 方 法 ( Probability- Based 
Ensemble ，PBE) 。 它 只 要 求 对 最 细 粒 度 的 单元 构建 模型 。 然后 使 用 OLAP 风格 的 自 底 向 上 的 
聚集 产生 较 粗 粒度 单元 的 值 。 
预测 模型 的 预测 可 以 看 做 找 出 最 大 化 评分 函数 的 类 标号 。PBE 方法 要 求 任 何 预测 模型 的 
评分 函数 都 是 分 布 可 分 解 的 。 在 数据 立方 体 度 量 的 讨论 中 (4.5.2 节 ) ， 分 布 和 代数 度量 都 
可 以 有 效 地 计算 。 因 此 ， 如 果 所 用 的 评分 函数 是 分 布 的 或 代数 的 ， 则 预测 立方 体 也 可 以 有 效 
地 计算 。 这 样 ，PBE 方法 把 预测 立方 体 的 计算 归结 为 数据 立方 体 的 计算 。 
例如 ， 以 前 的 研究 表明 朴素 贝 叶 斯 分 类 器 具有 一 个 代数 可 分 解 的 评分 函数 ， 并 且 基 于 核 
密度 的 分 类 器 具有 一 个 分 布 可 分 解 的 评分 函数 28。 因此 ， 它 们 都 可 以 用 来 有 效 地 实现 预测 立 
方 体 。PBE 方法 提供 一 种 在 立方 体 空间 进行 多 维 数据 挖掘 的 新 颖 方法 。 





O ”村 素 贝 叶 斯 分 类 在 第 8 章 介 绍 。 基 于 核 密度 的 分 类 ， 如 支持 向 量 机 ， 在 第 9 章 介 绍 。 
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5.4.2 多 特征 立方 体 ， 多 粒度 上 的 复杂 聚集 


数据 立方 体 有 利于 回答 面向 分 析 或 面向 挖掘 的 查询 ， 因 为 它们 允许 对 多 个 粒度 层 上 的 聚 
集 数 据 进 行 计 算 。 传 统 的 数据 立方 体 是 在 通常 使 用 的 维 (如 time, location 和 product) E, 
使 用 简单 的 度量 (例如 ，count () average () 和 sum () ) 构 建 。 本 节 将 学 习 一 种 更 新 的 定 
义 数据 立方 体 的 方法 ， 称 为 多 特征 立方 体 (mnultifeature cube) 。 多 特征 立方 体 使 得 更 深入 的 
分 析 成 为 可 能 。 它 们 可 以 计算 更 复杂 的 查询 ， 其 回答 依赖 于 变化 粒度 层 上 多 个 聚集 的 分 组 。 
与 传统 的 查询 相 比 ， 所 提出 的 查询 更 复杂 、 更 针对 分 析 任 务 ， 如 下 面 的 各 例 所 示 。 许 多 数据 
挖掘 查询 都 可 以 用 多 特征 立方 体 回答 ， 与 传统 的 数据 立方 体 上 的 简单 查询 的 立方 体 计算 相 
比 ， 并 不 显著 增加 计算 开销 。 

为 了 解释 多 特征 立方 体 的 思想 ， 首 先 看 一 个 简单 数据 立方 体 查询 的 例子 。 

例 5.19 简单 数据 立方 体 查询 。 设 查询 为 “ 找 出 2010 年 的 销售 总 和 ， 按 item, region 
和 month 划分， 对 每 个 维 求 子 和 ”。 为 回答 该 查询 ， 构 造 一 个 传统 的 数据 立方 体 ， 它 在 以 下 
8 个 不 同 的 粒度 层 上 聚集 总 销售 :; | (item, region, month), (item, region), (item, month), 
(month, region), (item), (month), (region), ()}; 其 中 ，() 代 表 al。 这 个 数据 立方 体 
是 简单 的 ， 因 为 它 不 涉及 任何 依赖 聚集 。 a 

为 了 解释 “依赖 聚集 ”的 含义 ， 考 察 一 个 更 复杂 的 查询 ， 它 可 以 用 多 特征 立方 体 计 算 。 

例 5. 20 一 个 涉及 依赖 聚集 的 复杂 查询 。 假 设 查询 为 “ 按 |item, region, month) 的 
所 有 子 集 分 组 ， 找 出 2010 年 每 组 的 最 高 价格 ， 并 在 具有 最 高 价格 的 所 有 元 组 中 找 出 总 销 
售 额 ”。 

使 用 标准 的 SQL， 这 种 查询 说 明 可 能 很 长 、 重 复 ， 并 且 难 以 优化 和 维护 。 或 者 ， 该 查询 
可 以 用 扩充 的 SQL 精确 地 表示 如 下 : 


select item, region, month, max( price), sum(R.sales) 
from Purchases 

where year = 2010 

cube by item, region, month: R 

such that R.price = max(price) 


首先 选择 代表 2010 年 购物 的 元 组 。cube by 子 句 对 属性 item, region 和 month 的 所 有 可 
能 的 组 合计 算 聚 集 (或 分 组 ) ， 它 是 group by TAR n ÆW. E cube by 子 句 中 说 明 的 
属性 是 分 组 属性 。 在 所 有 分 组 属性 上 具有 相同 值 的 元 组 形成 一 个 分 组 。 设 分 组 为 g, ，…， 
&8r。 对 每 个 元 组 分 组 g;， 计 算 形成 该 分 组 的 各 个 元 组 的 最 高 价格 max 。 变 量 R 是 分 组 变量 ， 
遍 取 分 组 g; 中 价格 等 于 max 的 所 有 元 组 (WFA such that 所 说 明 的 那样 )。 计 算 R 遍 取 
的 g; 中 的 元 组 的 销售 和 ， 并 与 g, 的 分 组 属性 值 一 起 返回 。 

结果 立方 体 是 一 个 多 特征 立方 体 ， 因 为 它 支持 复杂 的 数据 挖掘 查询 。 对 于 它 ， 多 依赖 的 
聚集 在 不 同 粒度 计算 。 例 如 ， 该 查询 返回 的 销售 和 依赖 于 每 个 分 组 的 最 高 价格 元 组 的 集合 。 
一 般 而 言 ， 多 特征 立方 体 使 得 用 户 可 以 灵活 地 定义 复杂 的 、 面 向 特定 任务 的 立方 体 ， 在 该 立 
方 体 上 可 以 进行 多 维 聚 集 和 基于 OLAP 的 挖掘 。 m 

“如 何 有 效 地 计算 多 特征 立方 体 ?” 多 特征 立方 体 的 计算 依赖 于 该 立方 体 所 使 用 的 聚集 
函数 的 类 型 。 在 第 4 章 ， 我 们 看 到 聚集 函数 可 以 分 为 分 布 的 、 代 数 的 和 整体 的 。 多 特征 立方 
体 也 可 以 组 织 成 相同 的 类 型 ， 并 且 对 5.2 节 的 立方 体 计算 方法 稍 加 修改 就 可 以 有 效 地 计算 。 


5.4.3 ”基于 异常 的 、 发 现 驱动 的 立方 体 空间 探查 
正如 上 一 节 所 看 到 的 ， 一 个 数据 立方 体 可 能 具有 大 量 方 体 ， 并 且 每 个 方 体 都 可 能 包含 大 
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E (RR) 单元 。 有 了 如 此 巨大 的 空间 ， 对 用 户 而 言 ， 即 使 只 是 浏览 立方 体 也 成 了 一 种 负 
担 、 更 不 要 说 彻底 地 探查 它 了 。 需 要 开发 一 些 工具 ， 帮 助 用 户 智能 地 探查 数据 立方 体 巨 大 的 . 
聚集 空间 。 

本 节 介 绍 探索 立方 体 空间 的 发 现 驱 动 方法 。 指 示 数 据 异 常 的 预计 算 的 度量 ， 在 所 有 的 聚 
集 层 用 来 指导 用 户 的 数据 分 析 过 程 。 以 下 称 这 种 度量 为 异常 指示 符 。 直 观 地 ， 异 常 〈excep- 
tion) 是 一 个 数据 立方 体 单元 值 ， 基 于 某 种 统计 模型 ， 它 显著 地 不 同 于 预期 值 。 该 模型 在 单 
元 所 属 的 所 有 维 上 考虑 度量 值 的 变化 和 模式 。 例 如 ， 如 果 商 品 销售 数据 分 析 揭 示 ， 与 其 他 所 
有 月 份 相 比 ，12 月 份 的 销售 增长 了 ， 这 似乎 是 时 间 维 上 的 异常 。 然 而 ， 如 果 考 虑 商品 维 ， 
它 就 不 是 异常 ， 因 为 在 12 月 份 ， 其 他 商品 的 销售 也 有 类 似 的 增长 。 

该 模型 考虑 隐藏 在 数据 立方 体 的 所 有 分 组 聚集 中 的 异常 。 基 于 预先 计算 的 异常 指示 符 ， 
可 视 提 示 (WERE) 用 于 反映 每 个 单元 的 异常 程度 。 正 如 5.2 节 所 述 ， 已 为 立方 体 构造 
提出 了 一 些 有 效 的 算法 。 蜡 常 指示 符 的 计算 可 以 与 立方 体 构造 重 琶 ， 使 得 对 于 发 现 驱动 的 探 
查 ， 数 据 立 方 体 的 总 体 结构 更 有 效 。 
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有 三 种 度量 用 做 异常 指示 符 ， 和 帮助 识别 数据 异常 。 这 些 度量 指出 单元 中 的 量 相 对 于 期 户 
值 的 奇异 程度 。 对 于 所 有 的 聚集 层 ， 计 算 这 些 度量 ， 并 将 它们 关联 到 每 一 个 单元 。 它 们 是 ， 

。 SelfExp: 指示 相对 于 同一 聚集 层 的 其 他 单元 ， 该 单元 的 奇异 程度 。 

© InExp: 指示 该 单元 之 下 某 处 的 奇异 程度 ， 如 果 从 它 下 钻 。 

。 PathExp: 指示 由 该 单元 的 每 条 下 销路 径 的 奇异 程度 。 

这 些 度量 用 于 发 现 驱动 的 数据 立方 体 探查 ， 其 用 法 在 例 5. 21 中 解释 。 

例 5. 21 数据 立方 体 的 发 现 驱动 的 探查 。 假 设想 分 析 AllElectronics 的 月 销售 ， 按 百 分 
比 与 上 月 比较 。 所 涉及 的 维 是 item. time 和 region。 开 始 ， 研 究 每 个 月 、 所 有 商品 在 所 有 地 
区 的 聚集 数据 ， 如 图 5. 16 所 示 。 
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图 5. 16 销售 随时 间 变 化 


为 观察 异常 指示 符 ， 在 屏幕 上 单 击 标记 高 亮度 异常 按钮 。 这 把 SelfExp 和 InExp 的 值 转 
换 成 可 视 提 示 ， 显 示 于 每 个 单元 。 每 个 单元 的 背景 色 基于 它 的 SelfExp 值 。 此 外 ， 一 个 方 框 
画 在 单元 的 周围 ， 其 中 方 框 的 粗细 和 颜色 是 其 InExp 值 的 函数 ， 粗 框 指示 高 InExp 值 。 在 两 
种 情况 下 ， 颜 色 越 深 ， 异 常 程度 越 高 。 例 如 ,7 月 、8 月 、9 月 销售 的 黑 粗 框 告诉 用 户 通过 
下 钻 ， 探 查 这 些 单元 的 低层 聚集 。 

下 钻 可 以 沿 着 被 聚集 的 iem 或 region 维 进 行 。 想 知道 “ 哪 一 条 路 经 更 异常 ?” 为 了 找 出 
它 ， 选 择 一 个 感 兴趣 的 单元 ， 并 触发 一 个 路 经 异常 模块 。 该 模块 根据 单元 的 PathExp 值 ， 为 
每 个 维 上 色 。 该 值 反映 路 经 的 奇异 程度 。 假 设 沿 着 item 的 路 径 包 含 更 多 异常 。 

沿 着 item 下 钻 导致 图 5.17 所 示 的 立方 体 切片 ， 显 示 每 种 商品 各 时 间 段 的 销售 。 此 时 ， 
提供 了 许多 不 同 的 销售 值 供 你 分 析 。 通 过 单 击 高 亮度 异常 按钮 ， 显 示 可 视 提示 ， 将 注意 力 引 
向 异常 。 考 虑 “Sony b/w printer” 9 月 份 41% 的 销售 差 。 该 单元 具有 深 色 背景 ， 指 示 一 个 高 
SelfExp 值 ， 意 味 该 单元 是 一 个 异常 。 现 在 ， 考 虑 “Sony b/w printer” 的 11 月 份 -15% 的 销 
售 差 和 12 A ft - 11% 的 销售 差 。12 月 份 的 值 - 11% 被 标记 为 一 个 异常 ， 而 值 -15% 没有 ， 
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尽管 -15% 比 -11% 的 差 更 大 。 这 是 因为 异常 指示 符 考 虑 了 一 个 单元 所 在 的 所 有 维 。 注 意 ， 
12 月 份 大 部 分 其 他 商品 的 销售 具有 一 个 大 的 正 值 ， 而 11 月 份 不 是 。 因 此 ， 通 过 考虑 单元 在 
立方 体 中 的 位 置 ,“Sony b/w printer” 12 月 份 的 销售 差 是 一 个 异常 ， 而 该 商品 11 月 份 的 销 
售 差 不 是 。 










































re 月 份 

Ui ilelslalslels) als [wl a] 
Sony b/w printer 9% | -8% | 2% | -5% | 14% | -4% | 0% | EZ) EEA -15% i 
Sony color printer F o% |o% |3% |2% |4% |-10%| -13% 0% | 4% |-6% 
HP b/w printer | -2%| 1% | 2% | 3% | 8% [0% ]| -12% -9% | 3% | -3% 
HP color printer o% | 0% |-2%| 1% |0% |-1% |-7% |-2%] 1% |-4% 
IBM desktop computer 1% | -2% | -1%|-1% |3% ||3% || -10%|4% 1% |-4% 
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Toshiba laptop computer 1% |0% | 3% | 0% 

















Logitech mouse 3% | -2% 
Ergo—way mouse 0% | 0% | 2% |3% |1% 





















































图 5.17 商品 -时 间 组 合 的 销售 变化 


InExp 值 可 以 用 来 指示 在 当前 层 不 可 见 的 、 较 低层 上 的 异常 。 考 虑 7 月 份 和 9 月 份 
“IBM desktop computer” 所 在 的 单元 。 两 个 单元 周围 都 有 黑 粗 框 ， 指 明 它 们 具有 高 InExp 值 。 
可 能 决定 沿 region 下 外 ， 进 一 步 探查 “IBM desktop computer” 的 销售 。 按 地 区 的 销售 差 显 示 
在 图 5. 18 中 ， 其 中 高 亮度 异常 选项 被 激活 。 所 显示 的 可 视 化 提示 使 得 我 们 立即 注意 到 
“IBM desktop computer” 销售 在 南部 地 区 的 异常 。 那 里 ,7 月 份 和 9 月 份 的 销售 分 别 下 降 
T 39% 和 34%。 在 观察 图 5. 17 中 按 商品 -时 间 分 组 、 按 地 区 聚集 的 数据 时 ， 这 些 细节 上 
的 异常 远 非 显而易见 的 。 因 此 ， 对 于 搜索 数据 立方 体 的 较 低 层次 上 的 异常 ，ImExp 值 是 有 










































用 的 。 a 
销售 月 份 
地 区 1[2]3 [4 s{[6][7][sfo9fwofu |p 
北部 i -3%| -1% | 0% | 3% | 4% |-7% | 1%| o% | -3% | -3% 
南部 -1% | 1% | -9% | 6% | -1% 9% B 4% |1% |7% 
东部 -1% | -2%| 2% | -3% | 1% |18% | -2% | 11%| -39 | -2% | -1% 
西部 -3% | 5% | 1% | -18% 59 1% 





图 5.18 每 个 地 区 


“IBM desktop computer” 的 销售 变化 


“如 何 计算 异常 值 ?”SelfExp InExp 和 PathExp 度量 是 基于 表 分 析 的 统计 方法 。 它 们 考 
虑 给 定单 元 值 涉及 的 所 有 分 组 (聚集 ) 。 一 个 单元 值 是 否 异 常 要 根据 它 与 它 的 期 望 值 相差 多 
少 判 定 ， 其 中 期 望 值 使 用 统计 模型 确定 。 给 定单 元 的 值 和 它 的 期 望 值 之 间 的 差 称 为 残 差 
(residual) 。 直 观 地 ， 残 差 越 大 ， 给 定单 元 的 值 越 异 常 。 为 比较 残 差 值 ， 需 要 按照 与 残 差 相 
关 的 期 望 标准 差 对 残 差 值 定 标 。 因 此 ， 一 个 单元 值 被 视 为 异常 ， 如 果 它 的 定 标 残 差 值 超过 一 
个 预先 指定 的 阔 值 。SelfExp InExp 和 PathExp 度量 就 是 基于 这 种 定 标 残 差 。 

一 个 给 定单 元 的 期 望 值 是 该 单元 较 高 层 分 组 的 函数 。 例 如 ， 给 定 一 个 具有 三 个 维 A4、B 
ALC 的 立方 体 ， 在 4 的 第 i 个 位 置 、 8 的 第 j 个 位 置 和 C 的 第 大 个 位 置 的 单元 的 期 望 值 是 y, 
yf、Y、YE、Y9、Y# 和 yw 的 函数 ， 是 所 用 的 统计 模型 的 系数 。 系 数 反映 了 在 更 细 粒 度 层 
上 值 的 差异 ， 是 基于 观察 高 层 聚 集 形成 的 一 般 印象 。 用 这 种 方法 ， 一 个 单元 的 异常 性 建立 在 
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它 下 面 的 值 的 异常 程度 之 上 。 因 此 ， 当 看 到 异常 时 ， 用 户 自然 通过 下 外 进一步 探查 异常 。 


“如 何 有 效 地 为 发 现 驱动 的 探查 构造 数据 立方 体 ?” 该 计算 由 三 个 阶段 组 成 。 第 一 阶段 


涉及 定义 数据 立方 体 的 如 sum 或 count 等 聚集 值 的 计算 。 在 这 些 聚 集 值 上 将 发 现 异常 。 第 
二 阶段 是 模型 拟 合 ， 要 确定 上 面 提 到 的 系数 ， 并 用 来 计算 标准 残 差 。 这 一 阶段 可 以 与 第 一 阶 
段 重奏 ,因为 所 涉及 的 计算 是 类 似 的 。 第 三 阶段 基于 标准 残 差 ,计算 Selfpxp InExp 和 
PathExp 的 值 。 这 一 阶段 计算 也 与 第 一 阶段 类 似 。 因 此 ， 对 于 发 现 驱动 的 探查 ， 数 据 立方 体 
的 计算 可 以 有 效 地 进行。 


5. 5 


5. 6 


5.1 


5.2 


小 结 


。 数据 立方 体 的 计算 和 探查 在 数据 仓库 构建 中 扮演 至 关 重要 的 角色 ， 并 且 对 于 多 维 空间 的 灵活 挖 据 是 


重要 的 。 


。 数据 立方 体 由 方 体 的 格 组 成 。 每 个 方 体 都 对 应 于 给 定 多 维 数据 的 不 同 程度 的 汇总 。 完 全 物化 是 指 计 


算数 据 立方 体格 中 的 所 有 方 体 。 部 分 物化 是 指 选 择 性 地 计算 格 中 方 体 单元 的 子 集 。 冰 山 立 方 体 和 外 
壳 片 段 都 是 部 分 物化 的 例子 。 冰 山 立 方 体 是 一 种 数据 立方 体 ， 它 仅 存储 其 聚集 值 (如 count) 大 
于 某 最 小 支持 度 阐 值 的 立方 体 单元 。 对 于 数据 立方 体 的 外 这 片段 而 言 ， 只 计算 涉及 少数 维 的 某 些 方 
体 。 在 附加 的 维 组 合 上 的 查询 可 以 临时 计算 。 


。 有 一 些 有 效 的 数据 立方 体 计算 方法 。 本 章 详细 地 讨论 了 4 种 立方 体 计算 方法 ，(1) 多 路 数组 聚集 


Multiway， 基 于 稀 玖 数组 的 、 自 底 向 上 的 、 共 享 计算 的 物化 整个 数据 立方 体 ;， (2) BUC， 通 过 探 
查 有 效 的 自 顶 向 下 计算 次 序 和 排序 计算 冰山 立方 体 ，(3) Star- Cubing， 使 用 星 树 结构 ， 集 成 自 顶 
向 下 和 自 底 向 上 计算 ,计算 冰山 立方 体 ;， (4) 外 这 片段 立方 体 ， 通 过 仅 预 计算 划分 的 立方 体外 过 
片段 ， 支 持 进行 高 维 OLAP。 


。 立方 体 空间 中 的 多 维 数据 挖掘 是 知识 发 现 与 多 维 数据 立方 体 技术 的 集成 。 它 有 利于 在 大 型 结构 化 和 


半 结 构 化 的 数据 集中 系统 和 聚焦 地 发 现 知识 。 它 将 继续 为 分 析 者 的 多 维和 多 粒度 分 析 提供 极 大 的 灵 
活性 和 能 力 。 对 于 构建 功能 强大 的 、 复 杂 的 数据 挖掘 机 制 的 研究 者 而 言 ， 这 是 一 个 尚 需 大 量 研究 的 
领域 。 


。 已 经 提出 了 一 些 处 理 高 级 查询 的 技术 ， 它 们 利用 立方 体 技术 的 优势 。 这 些 技术 包括 用 于 样本 数据 的 


多 维 分 析 的 抽样 立方 体 ， 用 于 大 型 关系 数据 库 中 top-& (排序 ) 查询 有 效 处 理 的 排序 立方 体 。 


。 本 章 强调 三 种 利用 数据 立方 体 进行 多 维 数据 分 析 的 方法 。 预 测 立方 体 计算 多 维 立 方 体 空间 的 预测 模 


型 。 它 们 帮助 用 户 识别 变化 的 粒度 级 别 上 的 数据 的 有 趣 子 集 。 多 特征 立方 体 计算 涉及 多 粒度 上 多 个 
依赖 的 聚集 的 复杂 查询 。 立 方 体 空间 中 基于 异常 的 、 发 现 驱动 的 探查 显示 可 视 化 提示 ， 指 示 在 所 有 
聚集 层 上 发 现 的 异常 ， 从 而 指导 用 户 的 数据 分 析 。 


习题 
假定 10 维基 本 方 体 只 包含 3 个 基本 单元 : (1) la, d, dh, de, ,ds, do); (2) (dl, bh, d, 
d,, very dy, do); (3) (d,, d,, C35 d,, nee dy, diy) o 其 中 a, #d,, b, Ad, 并 且 c, d,o 该 立方 
体 的 度量 是 count () 。 


(a) 完全 数据 立方 体 中 包含 多 少 个 非 空 方 体 ? 

(b) 完全 立方 体 中 包含 多 少 个 非 空 聚集 ( 即 非 基 本 ) 单元 ? 

(c) 如 果 冰 出 立方 体 的 条 件 是 “count 沁 2”， 那 么 冰山 立方 体 包含 多 少 个 非 空 聚集 单元 ? 

(d) 单元 是 闭 单元 ， 如 果 不 存在 单元 d 使 得 d 是 单元 c 的 特殊 化 ( 即 d 通过 用 非 “ * ” 值 替换 c 中 
的 “* ”得 到 ) ， 并 且 4 与 “具有 相同 的 度量 值 。 闭 立方 体 是 仅 由 闭 单元 组 成 的 数据 立方 体 。 该 
立方 体 中 有 多 少 个 闭 单 元 ? i 

有 几 种 典型 的 立方 体 计 算 方 法 ， 如 MultiWay[ ZDN97] 、BUC[ BR99] 和 Star- Cubing[XHLW03 ] 。 简 单 

地 描述 这 三 种 方法 〈 即 用 一 两 行列 出 要 点 ) ， 并 在 以 下 条 件 下 比较 它们 的 灵活 性 和 性 能 : 
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(a) 计算 低 维 〈 例 如 ， 小 于 8 维 ) 、 笛 密 的 完全 立方 体 。 
(b) 计算 具有 高 度 倾斜 数据 分 布 的 大 约 10 维 的 冰山 立方 体 。 
(ec) 计算 高 维 (例如 ,超过 100 维 ) 、 稀 踊 的 冰山 立方 体 。 
5.3 假设 数据 立方 体 C 有 4 个 维 ， 并 且 基 本 方 体 包含 天 个 不 同 元 组 。 
(a) 给 出 一 个 公式 ， 计 算 立 方 体 C 可 能 包含 的 单元 的 最 小 个 数 。 
(b) 给 出 一 个 公式 ， 计 算 立 方 体 C 可 能 包含 的 单元 的 最 大 个 数 。 
Co) 如 果 每 个 立方 体 单 元 中 的 计数 不 能 小 于 阐 值 >， 回答 (a) 和 (b) 。 
(d) 如 果 只 考虑 闭 单元 (使 用 最 小 计数 阔 值 ") 回答 (a) 和 (b), 
5.4 ”假定 基本 方 体 有 三 个 维 4、B、C， 其 单元 数 如 下 : 141 =1000 000，181 =100, ICI =1000。 假 设 每 个 
维 平均 地 分 块 成 10 部 分 。 
(a) 假定 每 个 维 只 有 一 层 ， 绘 制 完 整 的 立方 体 的 格 。 
(b) 如 果 每 个 立方 体 单元 存放 一 个 4 字 节 的 度量 ， 若 立方 体 是 稠密 的 ， 那么 所 计算 的 立方 体 有 和 多大? 
Cc) 指出 空间 需求 量 最 小 的 块 计算 次 序 ， 并 求 出 计算 二 维 平面 所 需要 的 内 存 空间 。 
5.5 通常 ， 大 型 数据 方 体 中 的 许多 单元 的 聚集 度量 count 值 为 零 ， 导 致 巨大 的 、 稀 朴 的 多 维和 矩阵 。 
(a) 设计 一 种 实现 方法 ， 它 能 够 很 好 地 克服 稀 朴 矩阵 问题 。 注 意 ， 需 要 详细 地 解释 你 的 数据 结构 ， 





讨论 空间 需求 ， 并 解释 如 何 从 你 的 结构 中 检索 数据 。 236 
(b) 修改 你 在 (a) 中 的 设计 ， 以 便 处 理 增 量 数据 更 新 。 给 出 新 设计 的 理由 。 
5.6 在 计算 高 维 数据 立方 体 时 ， 遇 到 固有 的 维 灾难 问题 ; 存在 大 量 维 组 合 的 子 集 。 
(a) 假设 在 100 维 的 基本 方 体 中 只 有 两 个 基本 单元 1(@， 四 ，m，…，am)， Ca, a, ba, =, 
bioo ) | 。 计 算 非 空 聚 集 单 元 数 。 讨 论 计算 这 些 单元 所 需要 的 空间 和 时 间 。 
(b) 假设 要 从 (a) 的 基本 立方 体 计算 冰山 立方 体 。 如 果 冰 山 条 件 中 的 最 小 支持 度 计数 为 2， 那 么 该 
冰山 立方 体 有 多 少 个 聚集 单元 ”给 出 这 些 单元 。 
Co) 引进 冰山 立方 体 减 经 了 计算 数据 立方 体 中 平凡 聚集 单元 的 负担 。 然 而 ， 即 便 使 用 冰山 立方 体 ， 
仍然 不 得 不 计算 大 量 平凡 的 、 无 意义 的 单元 〈 即 具有 小 计数 的 单元 ) 。 假 设 数据 库 有 20 个 元 组 ， 
它们 映射 到 (或 涵盖 ) 如 下 两 个 100 维基 本 方 体 的 单元 ， 每 个 单元 的 计数 均 为 10，{(a， m, 
a3, 00): 10, (a,, a, b3, =, biw): 10}, 
i . 令 最 小 支持 度 为 10。 有 多 少 个 不 同 的 聚集 单元 具有 如 下 形式 : |l, @, a, ay， *): 10, 
Cai) 10, =, (a,, a, a, wR 10} ? 
ii. 如 果 忽 略 所 有 可 以 通过 用 “ * ”替换 某 个 常量 而 保持 相同 的 度量 值得 到 的 聚集 单元 ， 还 镜 下 
多 少 个 不 同 的 单元 ?是 哪些 单元 ? 
5.7 提出 一 种 有 效 地 计算 闭 冰山 立方 体 的 算法 。 
5.8 假设 计算 维 4、B、C、D 的 冰山 立方 体 ， 其 中 希望 物化 满足 最 小 支持 度 计数 4 的 所 有 单元 ， 并 且 维 的 
基数 满足 cardinality( A) < cardinality( B) < cardinality( C) <cardinality(D) 。 显示 构造 以 上 冰山 立方 体 的 
BUC 处 理 树 (该 树 显 示 BUC 算法 从 all 开始 考察 数据 立方 体格 的 次 序 ) 。 
5.9 讨论 如 何 扩展 Star- Cubing 算法 计算 冰山 立方 体 、 其 中 冰山 条 件 测试 avg 不 大 于 某 个 值 wm 
5. 10 ”旅行 代理 的 航班 数据 仓库 包含 6 SHE: traveler, departure ( city) 、 departure_time arrival, arrival_time 
Ail flight, Bi SEE: count () 和 avg_fare(), Ht} avg fare () 在 最 低层 存放 具体 费用 ， 而 在 其 
他 层 存放 平均 费用 。 
(a) 假设 该 立方 体 是 完全 物化 的 。 从 基本 方 体 [traveller, departure, departure_time, arrival, arrival_ 
time, flight] 开始 ， 为 了 列 出 2009 年 每 个 从 洛杉矶 乘坐 美国 航空 公司 (AA) 的 商务 旅客 的 月 
平均 费用 ， 应 该 执行 哪些 OLAP 操作 例如， 上 卷 flight 到 airline)? 237 








(b) 假设 想 计算 数据 立方 体 ， 其 中 条 件 是 记录 的 个 数 最 少 为 10， 并 且 平 均 费 用 超过 500 美元 。 义 夯 
一 种 有 效 的 立方 体 计算 方法 (基于 航班 数据 分 布 的 常识 ) 。 
5. 11 (实现 项 目 ) 有 四 种 典型 的 数据 立方 体 计算 方法 : MultiWayf ZDN97] 、BUC[ BR99 ] 、H- cubing[ HP- 
DW01] 和 Star-cubing[ XHLWO03]。 
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(a) 从 这 些 立方 体 计算 算法 中 任 选 一 种 加 以 实现 ， 并 介绍 你 的 实现 、 实 验 和 性 能 。 找 另外 一 个 在 相 
同 平台 (如 Linux 上 C+ +) 实现 不 同 算法 的 学 生 ， 比 较 你 们 的 算法 性 能 。 
mA: 

1. 一 个 维基 本 方 体 表 (nm<20) ， 它 本 质 上 是 一 个 具有 个 属性 的 关系 表 。 

让 .冰山 条 件 count(C) >>k， 其 中 上 是 一 个 正 整数 ， 作 为 参数 。 

输出 : 

i. 计算 满足 冰山 条 件 的 方 体 的 集合 ， 按 产生 的 次 序 输出 。 

让. 由 如 下 形式 汇总 方 体 的 集合 “ 方 体 1D: 非 空 单元 数 ”， 按 方 体 字母 次 序 排序 ， 例 如 4: 155, 
AB; 120, ABC; 22, ABCD; 4, ABCE: 6, ABD: 36, 其 中 ,“ ;” 后 的 数 表示 非 空 单元 数 。 
(这 用 来 快速 检查 你 的 结果 的 正确 性 。) 

(b) 基于 你 的 实现 ， 讨 论 如 下 问题 ， 

i. 随 着 维 数 增加 ， 遇 到 的 挑战 性 计算 问题 是 什么 ? 

这. 冰山 立方 体 计算 如 何 对 某 些 数据 集 解 决 Ca) 中 的 问题 ”描述 这 些 数 据 集 的 特性 。 

ii. 给 出 一 个 简单 的 例子 ， 表 明 冰 山 立 方 体 有 时 不 能 提供 好 的 解决 方案 。 

(c) 替代 计算 高 维 数据 立方 体 ， 可 以 选择 物化 仅 售 少 数 维 组 合 的 方 体 。 例 如 ， 对 于 30 维 的 数据 立方 
体 ， 可 以 对 于 所 有 可 能 的 5 维 组 合 ， 只 物化 5 维 方 体 。 结 果 方 体形 成 一 个 外 这 立方 体 。 讨 论 修 
改 你 的 算法 进行 这 种 计算 的 难 易 程度 。 

为 了 样本 数据 (例如 调查 数据 ) 的 多 维 分 析 ， 提 出 了 抽样 立方 体 。 在 许多 实际 应 用 中 ， 样 本 数据 都 

可 能 是 高 维 的 (例如 ,超过 50 维 的 调查 数据 并 不 罕见 ) 。 

(a) 如 何 为 大 型 样本 数据 集 构造 有 效 的 、 可 伸缩 的 高 维 抽样 立方 体 ? 

(b) 为 这 种 高 维 抽样 立方 体 设计 一 个 有 效 的 增 量 更 新 算法 。 

Co) 讨论 如 何 支持 高 质量 的 下 钻 ， 尽 管 某 些 低层 单元 可 能 为 空 或 对 可 靠 的 分 析 而 言 包 含 的 数据 

少 。 

排序 立方 体 是 为 了 关系 数据 库 系 统 中 top-k (HEF) 查询 的 有 效 计 算 而 提出 的 。 最 近 ， 研 究 人 员 提 出 

了 另 一 种 类 型 的 查询 ， 称 为 轮 廉 线 查询 (skyline queries) 。 轮 廊 线 查询 返回 不 受 任何 其 他 对 象 户 支 

配 的 所 有 对 象 户 ， 其 中 支配 定义 如 下 : $ p 在 维 d 上 的 值 为 v(p;，d) ,我们 说 p; Bp, 支配 ， 当 且 仅 

当 对 于 每 个 偏爱 的 维 4， 有 o(p;, d) <v(p;，d)， 并 且 至 少 有 一 个 维 d 使 得 等 号 成 立 。 

(a) 设计 一 个 排序 立方 体 ， 使 得 轮廓 线 查询 可 以 有 效 地 处 理 。 

(b) 对 于 某 些 用 户 而 言 ， 轮 廓 线 查 询 有 时 太 严 格 ， 并 非 他 们 所 期 望 的 。 可 以 把 轮廓 线 概念 推广 到 广 
LRA: 给 定 一 个 d 维 数据 库 和 一 个 查询 9， 广义 轮廓 线 (generalized skyline) 是 如 下 对 象 的 
集合 : (1) 轮廓 线 对 象 ; (2) 轮廓 线 对 象 的 = - 近邻 的 非 轮廓 线 对 象 ， 其 中 上 是 一 个 轮廓 线 对 
象 p 的 -近邻 ,如 果 7 与 p 之 间 的 距离 不 超过 s。 设 计 一 个 排序 立方 体 ， 有 效 地 处 理 广义 轮廓 
线 查询 。 

排序 立方 体 是 为 了 支持 关系 数据 库 系 统 中 top-k (排序 ) 查询 而 设计 的 。 然 而 ， 也 可 以 对 数据 仓库 提 

出 排序 查询 ， 其 中 排序 是 在 多 维 聚 集 上 ， 而 不 是 在 基本 事实 的 度量 上 进行 。 例 如 ， 考 虑 正在 分 析 销 

售 数据 库 的 产品 经 理 。 销 售 数据 库存 储 全 国 范围 的 销售 历史 ， 按 location 和 time 组织。 为 了 进行 投资 

决策 ， 经 理 可 能 提出 如 下 查询 ;“ 具 有 最 大 总 产品 销售 的 top-10 个 (state, year) 单元 是 哪些 ?” 然 

后 , 他 可 能 下 销 ， 进 一 步 间 “top-10 4 (city, month) 单元 是 哪些 ?” 假 设 系 统 能 够 进行 这 种 部 分 物 

化 ， 导 出 如 下 两 种 类 型 的 物化 方 体 : 定向 方 体 (guiding cuboid) 和 支持 方 体 (supporting cuboid), Jt 

中 前 者 包含 一 些 提供 指导 排序 处 理 的 简明 的 高 层 数据 统计 量 的 单元 ， 而 后 者 提供 支持 有 效 联机 聚集 

的 倒 排 表 的 单元 。 

(a) 设计 一 种 有 效 计算 这 种 聚集 排序 立方 体 的 方法 。 

(b) 扩展 你 的 框架 ， 处 理 更 高 级 的 度量 。 一 个 可 能 的 例子 如 下 : 考虑 一 个 组 织 捐赠 数据 库 ， 其 中 捐 
赠 者 按 age. income 和 其 他 属性 分 组 。 感 兴趣 的 查询 包括 “哪些 年 龄 和 收入 分 组 是 top- 个 最 高 
捐赠 组 ?” 和 “哪些 捐赠 者 收入 分 组 具有 最 大 捐赠 量 标准 差 ?” 
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5.15 ”预测 立方 体 是 一 个 很 好 的 立方 体 空间 多 维 数据 控 据 的 例子 。 
(a) 提出 一 种 有 效 算法 ， 在 给 定 的 多 维 数据 库 中 计算 预测 立方 体 。 
(b) 你 的 算法 可 以 使 用 何 种 分 类 模型 。 解 释 原因 。 
5.16 多 特征 立方 体 允 许 我 们 基于 相当 复杂 的 查询 条 件 构造 感 兴趣 的 数据 立方 体 。 将 如 下 查询 转换 成 本 书 
介绍 的 查询 形式 ， 你 能 为 这 些 查询 构造 多 特征 立方 体 吗 ? 
(a) 构造 一 个 聪明 购物 者 立方 体 ， 其 中 ， 一 位 购物 者 是 聪明 的 ， 如 果 她 每 次 购买 的 商品 至 少 有 10% 
是 降价 出 售 的 。 
(b) 为 最 划算 的 产品 构造 一 个 数据 立方 体 ， 其 中 ， 最 划算 的 产品 是 那些 产品 ， 对 它们 而 言 ， 在 给 定 
的 月 份 售 价 最 低 。 


5.17 发 现 驱 动 的 立方 体 探查 是 一 种 在 数据 立方 体 的 大 量 单 元 中 标记 关注 点 的 可 取 方 法 。 对 于 一 个 点 是 否 
应 该 视 为 有 趣 的 ， 值 得 标记 ， 每 个 用 户 都 可 能 有 不 同 的 看 法 。 假 设 一 个 人 想 要 标记 这 些 对 象 ， 其 
z 分 数 绝对 值 在 d 维 平面 的 每 行 每 列 都 大 于 2。 
(a) 设计 一 种 有 效 的 计算 方法 ， 在 数据 立方 体 计算 时 识别 这 样 的 点 。 
(b) 假设 部 分 物化 的 方 体 有 (dz -1) 维和 (d+1) 维 方 体 , 但 是 没有 d 维 方 体 。 设 计 一 种 方法 标记 
这 样 的 (d -1) 维 单元 , 其 d 维 子女 包含 这 种 标记 的 点 。 


57 文献 注释 


数据 立方 体 中 多 维 聚 集 的 有 效 计 算 已 经 被 众多 研究 人 员 所 研究 。Gray Chauduri, Bosworth 等 [ GCB* 
97] 提出 cube-6y， 作 为 关系 数据 库 聚 集 操作 group-by、 交 叉 表 和 子 和 的 推广 ， 并 把 数据 立方 体 度量 划分 成 
三 类 : 分 布 的 、 代 数 的 和 整体 的 。Harinarayan Rajaraman 和 Ullman[ HRU96] 提出 了 一 种 数据 立方 体 计算 
的 部 分 物化 的 贪心 算法 。Sarawagi 和 Stonebraker[ SS94] 为 大 型 多 维 数组 的 有 效 组 织 开发 了 基于 块 的 计算 技 
Xo Agarwal, Agrawal, Deshpande 等 [AAD* 96] 为 ROLAP 服务 器 提出 了 多 种 多 维 聚 集 有 效 计算 的 指导 
方针 。 

MOLAP 中 数据 立方 体 计算 的 基于 块 多 路 数组 聚集 方法 MulitiWay 是 Zhao, Deshpande 和 Naughton 
[ZDN97] 提出 的 。Ross 和 Srivastava[ RS97] 开发 了 一 种 计算 稀 朴 数据 立方 体 的 方法 。 冰 山 查 询 首先 在 
Fang, Shivakumar, Garcia-Molina 等 [FSGM*98] 中 提出 。BUC 是 一 种 从 顶点 方 体 向 下 计算 冰山 立方 体 的 
可 伸缩 的 方法 ， 由 Beyer 和 Ramakrishnan[ BR99 ] 提出 。Han、Pei、Dong 和 Wang[ HPDW01] 提出 了 H-Cu- 
bing Fk, WEH H - 树 结构 计算 具有 复杂 度量 的 冰山 立方 体 。 

Star-Cubing 使 用 动态 星 树 结构 计算 冰山 立方 体 ， 由 Xin, Han, Li 和 Wah[ XHLW03] 提出 。MM- Cu- 
bing 是 一 种 分 解 格 空间 的 有 效 的 冰山 立方 体 计算 方法 ， 由 Shao, Han 和 Xin[ SHX04] 开发 。MM- Clubing 是 
Shao, Han 和 Xin[ SHX04] 开发 的 分 解 格 空间 ， 计 算 冰山 立方 体 的 有 效 方法 。 为 了 有 效 的 高 维 OLAP 而 开 
发 的 基于 外 壳 片 段 的 立方 体 计算 方法 由 Li, Han 和 Gonzalez[ LHG04] 提出 。 

除了 计算 冰山 立方 体 之 外 ， 另 一 种 降低 数据 立方 体 计算 的 方法 是 物化 浓缩 的 ， 侏 侍 或 商 立方 体 ， 它 是 
闭 立 方 体 的 一 种 变 体 。Wang、Feng、Lu 和 Yu 提出 了 计算 一 种 称 为 浓缩 立方 体 的 归 约 的 数据 立方 体 WL 
FY02 ] Sismanis, 、Deligiannakis Roussopoulos 和 Kotids 提出 计算 一 种 称 为 侏儒 立方 体 (dwarf cube) 的 归 约 
的 数据 立方 体 。Lakeshmanan Pei 和 Han 提出 了 高 立方 体 (quotient cube) 结构 来 概括 数据 立方 体 的 语义 
[LPHO2] ， 它 又 被 Lakshmanan, Pei 和 Zhao[ LPZ03] 进一步 扩展 为 gc — #44544, Xin, Han, Shao 和 Liu 
[Xin °06] 开发 了 一 种 使 用 新 的 代数 度量 closedness， 有 效 地 进行 闭 立 方 体 计算 的 基于 聚集 的 方法 C- Cubing 
( 即 Closed- Cubing ) 。 

关于 压缩 数据 立方 体 的 近似 计算 也 有 许多 研究 ， 如 Barbara 和 Sullivan[ BS97a] 的 准 立 方 体 ( quasi- 
cube), Vitter, Wang 和 Iyer[ VWI98] 的 小 波 立 方 体 ，Shanmugasundaram 、Fayyad 和 Bradley[ SFB99 ] 的 在 连 
续 维 上 查询 近似 计算 的 压缩 立方 体 ，Barbara 和 Wu[ BW00 ] 使 用 对 数 线性 模型 的 压缩 数据 立方 体 ， 以 及 
Burdick, Deshpande, Jayram 等 [BDJ*05] 在 不 确定 和 不 准确 数据 上 的 OLAP, 

关于 为 有 效 的 OLAP 查询 处 理 ， 物 化 方 体 选择 的 工作 ， 见 Chaudhuri 和 Dayalf CD97], Harinarayan, Ra- 
jaraman 和 Ullman[ HRU96] ，Sristava 、Dar、Jagadish 和 Levy[ SDJL96], Gupta[ Gup97 ] Baralis, Paraboschi 
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和 Teniente[ BPT97], ， 以 及 Shukla, Deshpande 和 Naughton[ SDN98 ] 。 方 体 大 小 估计 的 方法 可 以 在 Desh- 
pande, Naughton, Ramasamy 等 [ DNR *97 ] Ross 和 Srivastava[ RS97 ] Beyer 和 Ramakrishnan[ BR99] 中 找 
到 。Agrawal Gupta 和 Sarawagi[ AGS97] 提出 了 多 维 数据 库 建 模 的 操作 。 

数据 立方 体 建 模 和 计算 已 经 被 扩展 到 关系 数据 之 外 的 数据 。Chen、Dong、Han 等 [CDH‘02] 研究 了 
用 于 多 维 数据 流 数据 分 析 的 流 立 方 体 的 计算 。Stefanovic、Han 和 Koperski[ SHKOO] 考察 了 空间 数据 立方 体 
的 有 效 计 算 ，Papadias 、Kalnis 、Zhang 和 Tao[ PKZT01] 研究 了 空间 数据 仓库 的 有 效 OLAP， 而 Shekhar, 
Lu, Tan 等 [SLT*O1] 提出 了 对 空间 数据 仓库 可 视 化 的 地 图 立方 体 。Zaiane 、Han Li 等 [ZHL*98] 在 

MultiMediaMiner 中 构建 了 多 媒体 数据 立方 体 。 为 了 分 析 多 维 文本 数据 库 ，Lin、Ding、Han 等 基于 向 量 空间 
模型 ， 提 出 了 TextCube Zhang, Zhai 和 Han[ ZZH09] 基于 拓扑 建 模 方法 ， 提 出 了 TopicCube。 为 了 分 析 
RFID 数据 ，Gonzalez、Han 、Li $ [GHLK06, GHLO6] 提出 了 RFID 立方 体 FlowCube。 

抽样 立方 体 是 Li、Han、Yin 等 [LHY‘08] 为 分 析 样 本 数据 提出 的 。 排 序 立 方 体 是 Xin, Han, Cheng 
和 Li[XHCL06] 为 了 有 效 地 处 理 数 据 库 中 排序 (top-k) 查询 提出 的 。 这 种 方法 已 经 被 Wu, Xin 和 Han 
[WXH08] 扩展 到 4RCube， 支 持 部 分 物化 的 数据 立方 体 中 的 聚集 查询 的 排序 。 它 还 被 Wu, Xin, Mei 和 
Han[ WXMHO09] 扩展 到 PromoCube， 支 持 多 维 空间 中 的 促销 查询 分 析 。 

OLAP 数据 立方 体 发 现 驱 动 的 探查 由 Sarawagi, Agrawal 和 Megiddo[ SAM98] 提出 。 为 了 智能 地 探查 
OLAP 数据 ，Sarawagi 和 Sathe[ SS01] 进一步 研究 了 OLAP 与 数据 擦 据 功 能 的 集成 。Ross Srivastava 和 Chat- 
ziantonion[ RSC98] 介绍 了 多 特征 数据 立方 体 的 构造 。 Hellerstein, Haas 和 Wang[ HHW97 ] Hellerstein, 
Avnur, Chou 等 【HAC 99] 介绍 了 通过 联机 聚集 快速 回答 查询 的 方法 。Imielinski 、Khachiyan 和 Abdulghani 
[IKA02] 首次 提出 了 称 为 cubegrade 的 立方 体 梯度 分 析 问 题 。 对 于 多 维 被 约束 的 梯度 分 析 ，Dong、Han、 
Lam 等 [DHL*01] 研究 了 一 种 有 效 方法 。 

挖 据 立 方 体 空间 ， 或 知识 发 现 与 OLAP 立方 体 的 集成 ,已 经 被 许多 研究 人 员 所 研究 。 联 机 分 析 挖 气 
(OLAM) 或 OLAP 挖 拨 的 概念 由 Han[ Han98] 引进。Chen 、Dong、Han 等 为 时 间 序 列 数据 的 基于 回归 的 多 
维 分 析 开 发 了 回归 立方 体 [CDH*02，CDH*06]。Fagin、Guha、R. Kumar 等 [FGK*05] 研究 了 多 结构 数 
据 库 中 的 数据 挖 据 。B. -C. Chen, L Chen, Lin 和 Ramakrishnan[ CCLR05] 提出 了 预测 立方 体 ， 为 方便 预测 ， 
把 预测 模型 与 数据 立方 体 集 成 在 一 起 ， 以 便 分 析 有 趣 的 数据 子 空间 。Chen、Ramakrishnan 、Shavlik 和 Tam- 
ma[ CRSTO6] 研究 了 使 用 数据 挖掘 模型 作为 多 步 控 掘 过程 的 组 件 ， 以 及 使 用 立方 体 空间 为 局 部 区 域 预测 总 
体 聚 集 ， 直 观 地 定义 感 兴趣 的 空间 。Ramakrishnan 和 Chen[ RC07] 给 出 了 立方 体 空 间 探索 式 挖 气 的 有 条 理 

的 描述 。 
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挖掘 频繁 模 式 、 关 联 和 相关 性 : 基本 概念 和 方法 


想象 你 是 AllElectronics 的 销售 经 理 ， 正 在 与 一 位 刚 在 商店 购买 了 PC 和 数码 相机 的 顾客 
交谈 。 你 应 该 向 她 推荐 什么 产品 ? 你 的 顾客 在 购买 了 PC 和 数码 相机 之 后 频繁 购买 哪些 产 
品 ， 这 种 信息 对 你 做 出 推荐 是 有 用 的 。 在 这 种 情况 下 ， 频 繁 模式 和 关联 规则 正 是 你 想 要 挖掘 
的 知识 。 

频繁 模式 (frequent pattern) 是 频繁 地 出 现在 数据 集中 的 模式 〈 如 项 集 、 子 序列 或 子 结 
构 )。 例 如 ， 频 繁 地 同时 出 现在 交易 数据 集中 的 商品 (如 和 牛奶 和 面包 ) 的 集合 是 频繁 项 集 。 
一 个 子 序列 ， 如 首先 购买 PC， 然 后 是 数码 相机 ， 再 后 是 内 存 卡 ， 如 果 它 频繁 地 出 现在 购物 
历史 数据 库 中 ， 则 称 它 为 一 个 〈 频 繁 的 ) 序列 模式 。 一 个 子 结构 可 能 涉及 不 同 的 结构 形式 ， 
如 子 图 、 子 树 或 子 格 ， 它 可 能 与 项 集 或 子 序列 结合 在 一 起 。 如 果 一 个 子 结构 频繁 地 出 现 ， 则 
称 它 为 〈 频 繁 的 ) 结构 模式 。 对 于 挖掘 数据 之 间 的 关联 、 相 关 性 和 许多 其 他 有 趣 的 联系 ， 
发 现 这 种 频繁 模式 起 着 至 关 重 要 的 作用 。 此 外 ， 它 对 数据 分 类 、 聚 类 和 其 他 数据 挖掘 任务 也 
有 帮助 。 因 此 ， 频 繁 模式 的 挖掘 就 成 了 一 项 重要 的 数据 控 据 任务 和 数据 挖掘 研究 关注 的 主题 
之 一 。 

本 章 介绍 频繁 模式 、 关 联 和 相关 性 的 基本 概念 (6. 1 节 )， 并 研究 如 何 有 效 地 挖掘 它们 
(6.2 节 ) 。 还 讨论 如 何 评估 所 发 现 的 模式 是 否 有 趣 (6.3 节 )。 第 7 章 将 把 讨论 扩展 到 频繁 
模式 挖掘 的 高 级 方法 ， 挖 掘 形 式 更 加 复杂 的 频繁 模式 ， 并 考虑 利用 用 户 的 偏爱 或 约束 来 加 快 
挖掘 过 程 。 


6.1 基本 概念 

频繁 模式 挖掘 搜索 给 定数 据 集中 反复 出 现 的 联系 。 本 节 介 绍 发 现 事 务 或 关系 数据 库 中 项 
集 之 间 有 趣 的 关联 或 相关 性 的 频繁 模式 按 据 的 基本 概念 。6. 1. 1 节 给 出 一 个 购物 篮 分 析 的 例 
子 ， 这 是 频繁 模式 挖掘 的 最 初 形 式 ， 旨 在 得 到 关联 规则 。 控 气 频 繁 模式 和 关联 规则 的 基本 概 
念 在 6.1.2 节 给 出 。 


6.1.1 购物 篮 分 析 : 一 个 诱发 例子 


频繁 项 集 导 臻 发现 大 型 事务 或 关系 数据 集中 项 之 间 有 趣 的 关联 或 相关 性 。 随 着 大 量 数据 
不 断 地 收集 和 存储 ， 许 多 业界 人 士 对 于 从 他 们 的 数据 库 中 挖掘 这 种 模式 越 来 越 感 兴趣 。 从 大 
量 商务 事务 记录 中 发 现 有 趣 的 相关 联系 ， 可 以 为 分 类 设计 、 交 叉 销售 和 顾客 购买 习惯 分 析 等 
许多 商务 决策 过 程 提 供 帮助 。 | 

频繁 项 集 控 掘 的 一 个 典型 例子 是 购物 篮 分 析 。 该 过 程 通过 发 现 顾客 放 入 他 们 “购物 篮 * 
中 的 商品 之 间 的 关联 ， 分 析 顾 客 的 购物 习惯 ( 见 图 6. 1 ) 。 这 种 关联 的 发 现 可 以 帮助 零售 商 
了 解 哪些 商品 频繁 地 被 顾客 同时 购买 ， 从 而 帮助 他 们 制定 更 好 的 营销 策略 。 例 如 ， 如 果 顾 客 
在 一 次 超市 购物 时 购买 了 牛奶 ， 他 们 有 多 大 可 能 也 同时 购买 面包 ( 以 及 何 种 面包 )? 这 种 信 
息 可 以 帮助 零售 商 做 选择 性 销售 和 安排 货架 空间 ， 导 致 增加 销售 量 。 

看 一 个 购物 艇 分 析 的 例子 。 
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图 6.1 购物 篮 分 析 


例 6.1 购物 篮 分 析 。 假 定 作为 AllElectronics 的 部 门 经 理 ， 你 想 更 多 地 了 解 顾客 的 购物 
习惯 。 尤 其 是 ， 你 想 知道 “顾客 可 能 会 在 一 次 购物 同时 购买 哪些 商品 ?” 为 了 回答 问题 ， 可 
以 在 商店 的 顾客 事务 零售 数据 上 运行 购物 篮 分 析 。 分 析 结 果 可 以 用 于 营销 规划 、 广 告 策划 ， 
或 新 的 分 类 设计 。 例 如 ， 购 物 篮 分 析 可 以 帮助 你 设计 不 同 的 商店 布局 。 一 种 策略 是 : 经 常 同 
时 购买 的 商品 可 以 摆 放 近 一 些 ， 以 便 进一步 刺激 这 些 商 品 同时 销售 。 例 如 ， 如 果 购 买 计算 机 
的 顾客 也 倾向 于 同时 购买 杀毒 软件 ， 则 把 硬件 摆 放 离 软 件 陈列 近 一 点 ， 可 能 有 助 于 增加 这 两 
种 商品 的 销售 。 

另 一 种 策略 是 : 把 硬件 和 软件 摆 放 在 商店 的 两 端 ， 可 能 诱发 买 这 些 商 品 的 顾客 一 路 挑选 
其 他 商品 。 例 如 ， 在 决定 购买 一 台 很 贵 的 计算 机 后 ， 去 看 软件 陈列 ， 购 买 杀毒 软件 ， 途 中 看 
到 销售 安全 系统 ， 可 能 会 决定 也 买 家 庭 安 全 系统 。 购 物 篮 分 析 也 可 以 帮助 零售 商 规划 什么 商 
品 降价 出 售 。 如 果 顾 客 趋向 于 同时 购买 计算 机 和 打印 机 ， 则 打印 机 的 降价 出 售 可 能 既 促 使 购 
买 打印 机 ， 又 促使 购买 计算 机 。 m 

如 果 我 们 想象 全 域 是 商店 中 商品 的 集合 ， 则 每 种 商品 有 一 个 布尔 变量 ， 表 示 该 商品 是 否 
出 现 。 每 个 购物 篮 可 用 一 个 布尔 向 量 表 示 。 可 以 分 析 布 尔 向 量 ， 得 到 反映 商品 频繁 关联 或 同 
时 购买 的 购买 模式 。 这 些 模式 可 以 用 关联 规则 (association rule) 的 形式 表示 。 例 如 ， 购 买 
计算 机 也 趋向 于 同时 购买 杀毒 软件 ， 可 以 用 以 下 关联 规则 (6. 1) 表示: 

computer—antivirus_software[ support = 2% ;confidence = 60% | (6. 1) 

规则 的 支持 度 (support) 和 置信 和 度 (confidence) 是 规则 兴趣 度 的 两 种 度量 。 它 们 分 别 
反映 所 发 现 规则 的 有 用 性 和 确定 性 。 关 联 规则 (6. 1) 的 支持 度 为 2% ， 意 味 所 分 析 的 所 有 
事务 的 2% 显示 计算 机 和 杀毒 软件 被 同时 购买 。 置 信和 度 60% 意味 购买 计算 机 的 顾客 60% 也 
购买 了 杀毒 软件 。 在 典型 情况 下 ， 关 联 规则 被 认为 是 有 趣 的 ， 如 果 它 满足 最 小 支持 度 阔 值 和 
最 小 置信 和 度 阔 值 。 这 些 阔 值 可 以 由 用 户 或 领域 专家 设 定 。 还 可 以 进行 其 他 分 析 ， 揭 示 关 联 项 
之 间 有 趣 的 统计 相关 性 。 


6.1.2 频繁 项 集 、 闭 项 集 和 关联 规则 
Wl={, h, v, ni 是 项 的 集合 。 设 任务 相关 的 数据 D 是 数据 库 事务 的 集合 ， 其 中 
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每 个 事务 7 了 是 一 个 非 空 项 集 ， 使 得 TCI。 每 一 个 事务 都 有 一 个 标识 符 ， 称 为 TID。 设 4 是 
一 个 项 集 ， 事 务 了 包含 4， 当 上 且 仅 当 4E7。 关 联 规 则 是 形 如 ASB 的 蕴涵 式 ， HPACT, 
BCT, A¥O, BAO, HAANB=6, MM 4 一 8 在 事务 集 D 中 成 立 ， 具 有 支持 度 s， 其 
H s 是 DD 中 事务 包含 4UB ( 即 集 合 4 和 8B 的 并 或 4 和 B 二 者 ) 的 百分比 。 它 是 概率 P(AU 
B)°, AM ASB 在 事务 集 D 中 具有 置信 和 度 c<， 其 中 c 是 D 中 包含 4 的 事务 同时 也 包含 B8 的 
事务 的 百分比 。 这 是 条 件 概 率 P(B14)。 即 ， 

support(A=>B) = P(A U B) (6.2) 

confidence(A=>B) = P(B |A) (6.3) 
TE BNE (min_sup) 和 最 小 置信 度 阐 值 (min_conf) 的 规则 称 为 强 规则 。 
为 方便 计算 ， 用 0% ~100% 之 间 的 值 ， 而 不 是 0 ~1.0 之 间 的 值 表 示 支 持 度 和 置信 和 度 。 

项 的 集合 称 为 项 集 ” 。 包 含 夺 个 项 的 项 集 称 为 大 项 集 。 集合 | computer, antivirus _soft- 
ware} 是 一 个 2 项 集 。 项 集 的 出 现 频 度 是 包含 项 集 的 事务 数 ， 简 称 为 项 集 的 频 度 、 支 持 度 计 
数 或 计数 。 注 意 ，(6.2) 式 定义 的 项 集 支 持 度 有 时 称 为 相对 支持 度 ， 而 出 现 频 度 称 为 绝对 
支持 度 。 如 果 项 集 1 的 相对 支持 度 满足 预定 义 的 最 小 支持 度 阐 值 ( 即 7 的 绝对 支持 度 满足 对 
应 的 最 小 支持 度 计 数 阅 值 ) ， 则 /是 频繁 项 集 (frequent itemset)s。 频 繁 项 集 的 集合 通常 记 





为 L, oe 
由 (6.3) R, 有 
confidence(A=>B) = P(B |A) = support(A U B) _ support_count(A U B) (6.4) 
: support( A) support_count( A) 


(6.4) RRHH ASB 的 置信 度 容易 从 4 和 4UB 的 支持 度 计数 推出 。 也 就 是 说 ， 一 旦 得 
到 4、B 和 A4UB 的 支持 度 计 数 ， 则 导出 对 应 的 关联 规则 AB 和 8 一 4， 并 检查 它们 是 否 是 
强 规则 是 直截了当 的 。 因 此 ， 挖 掘 关 联 规则 的 问题 可 以 归结 为 挖掘 频繁 项 集 。 

一 般 而 言 ， 关 联 规则 的 挖掘 是 一 个 两 步 的 过 程 : 

(1) 找 出 所 有 的 频繁 项 集 : 根据 定义 ， 这些 项 集 的 每 一 个 频繁 出 现 的 次 数 至 少 与 预定 
义 的 最 小 支持 计数 min_sup 一 样 。 

(2) 由 频繁 项 集 产生 强 关联 规则 : 根据 定义 ,这些 规则 必须 满足 最 小 支持 度 和 最 小 置 
信和 度 。 

正如 将 在 6. 3 节 讨 论 的 那样 ， 也 可 以 使 用 附加 的 兴趣 度 度量 来 发 现 相 关联 的 项 之 间 的 
相关 联系 。 由 于 第 二 步 的 开销 远 低 于 第 一 步 ， 因 此 挖掘 关联 规则 的 总 体 性 能 由 第 一 步 
决定 。 

从 大 型 数据 集中 挖 据 频繁 项 集 的 主要 挑战 是 ， 这 种 挖掘 常常 产生 大 量 满足 最 小 支持 度 
(min_sup) 立 值 的 项 集 ， 当 min_sup 设置 得 很 低 时 尤其 如 此 。 这 是 因为 如 果 一 个 项 集 是 频繁 
的 ， 则 它 的 每 个 子 集 也 是 频繁 的 。 一 个 长 项 集 将 包含 组 合 个 数 较 短 的 频繁 子 项 集 。 例 如 ， 一 
个 长 度 为 100 频繁 项 集 la，oa，…，aio} 包含 Cio =100 个 频繁 1 项 集 c a,, ，…， aiw» 





Co PAE 2 项 集 la, al, la, a; | ar) | Ogg ， Qin}, to At, 频繁 项 集 的 总 个 数 为 
O 注意 ,，P(4UB) 表示 事务 包含 集合 4 和 B 的 并 (MAS AAB 中 的 每 个 项 ) 的 概率 。 不 要 把 它 与 P(4orB) 混 
淆 ,后 者 表示 事务 包含 4 或 B 的 概率 。 
© ”在 数据 按 据 研究 文献 中 , “itemset” 比 “item set” 更 常用 。 
O 在 早期 的 工作 中 ,满足 最 小 支持 度 的 项 集 称 为 大 的 (large) 。 然 而 ， 该 术语 有 时 容易 混淆 ， 因 为 它 具 有 项 集中 项 
的 个 数 的 内 涵 ， 而 不 是 集合 出 现 的 频率 。 央 此 ， 我 们 使 用 当前 术 话 频繁 的 。 
@ 尽管 频繁 的 已 取代 大 的 ， 但 由 于 历史 的 原因 ， 频 繁 上 项 集 仍 记 作 忆 。 
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Ch + Cig toe + CS = 2 1 ~ 1.27 x 10” (6.5) 
对 于 任何 计算 机 ， 项 集 的 个 数 都 太 大 了 ， 无 法 计算 和 存储 。 为 了 克服 这 一 困难 ， 引 入 闭 频 繁 
项 集 和 极 大 频繁 项 集 的 概念 。 


ME XERE D 中 是 闭 的 《closed) ， 如 果 不 存在 真 超 项 集 YOE Y 5 X ED PAA 
相同 的 支持 度 计 数 。 项 集 世 是 数据 集 忆 中 的 闭 频繁 项 集 (closed frequent itemset) WR X FE 
D PRANAB A. ME X Æ D 中 的 极 大 频繁 项 集 (maximal frequent itemset) 或 极 大 项 
集 (max-itemset) ， 如 果 针 是 频繁 的 ， 并 且 不 存在 超 项 集 Y 使 得 CY 并 且 Y 在 D PERM 
繁 的 。 

设 C 是 数据 集 忆 中 满足 最 小 支持 度 阔 值 min_sup 的 闭 频繁 项 集 的 集合 ，M 是 D 中 满足 
min_sup 的 极 大 频繁 项 集 的 集合 。 假 设 有 C 和 AM 中 的 每 个 项 集 的 支持 度 计 数 。 注 意 ，C 和 它 的 
计数 信息 可 以 用 来 导出 频繁 项 集 的 完整 集合 。 因 此 ， 称 C 包 含 了 关于 频繁 项 集 的 完整 信息 。 
另 一 方面 ，A4 只 存储 了 极 大 项 集 的 支持 度 信 息 。 通 常 ， 它 并 不 包含 其 对 应 的 频繁 项 集 的 完整 
的 支持 度 信 息 。 例 6. 2 解释 这 些 概念 。 

例 6.2 闭 的 和 极 大 的 频繁 项 集 。 假 定 事务 数据 库 只 有 两 个 事务 : ol a, e, Gol, 
ial，0,，…，aso|。 设 最 小 支持 度 计 数 阔 值 min_sup =1。 我 们 发 现 两 个 闭 频繁 项 集 和 它们 
的 支持 度 ， 即 C= {fa,, a, +, Got: 1; fay, a, +, aot: 21。 只 有 一 个 极 大 频繁 项 
Æ: M={{a,, a), +, awl: ljo ÆR, 我们 不 能 断言 1o ，o ，…，a} 是 极 大 频繁 
项 集 ， 因 为 它 有 一 个 频繁 的 超 集 la, ，o ，…，am} 。 与 上 面相 比 ， 那 里 我 们 确定 了 2” - 
1 个 频繁 模式 ， 数 量 太 大 ， 根 本 无 法 枚 举 ! 

闭 频繁 项 集 的 集合 包含 了 频繁 项 集 的 完整 信息 。 例 如 ， 可 以 从 C 推 出 : (1) {ia,, asl: 2}, 
因为 la, asi 是 dla, a, 0, awl: 2} 的 子 集 ; (2) lla, ast: 1}, FY fas, ag} 不 
是 (la, a, e, aal: 2} 的 子 集 ， 而 是 (la, a, =, amt: 1| 的 子 集 。 然 而 ， 从 极 大 频 
繁 项 集 只 能 断言 两 个 项 集 (1a,，ass| A la, asi) 是 频繁 的 ， 但 是 不 能 推断 它们 的 实际 支持 
度 计 数 。 = 


6.2 频繁 项 集 挖 据 方 法 


本 节 将 学 习 挖 据 最 简单 形式 的 频繁 模式 的 方法 。 这 种 频繁 模式 如 6. 1. 1 节 所 讨论 的 购物 
篮 分 析 中 的 那些 。 我 们 从 Apriori( 先 验 ) 算法 开始 (6.2.1 节 ) Apriori 算法 是 一 种 发 现 频 
繁 项 集 的 基本 算法 。6. 2. 2 节 考察 如 何 由 频繁 项 集 产 生 强 关联 规则 。6. 2. 3 节 介绍 Apriori 算 
法 的 一 些 变形 ， 用 于 提高 效率 和 可 伸缩 性 。6. 2. 4 节 介 绍 挖掘 频繁 项 集 模式 增长 方法 ， 该 方 
法 把 其 后 的 搜索 空间 限制 于 仅 包含 当前 频繁 项 集 的 数据 集 。6. 2. 5 节 介 绍 利用 数据 的 垂直 表 
示 挖 气 频 繁 项 集 的 方法 。 


6.2.1 Apriori 算 法 : 通过 限制 候选 产生 发 现 频繁 项 集 


Apriori 算法 是 Agrawal 和 R. Srikant 于 1994 年 提出 的 ， 为 布尔 关联 规则 挖掘 频繁 项 集 的 
原创 性 算法 [AS94b] 。 正 如 我 们 将 看 到 的 ,算法 的 名 字 基 于 这 样 的 事实 : 算法 使 用 频繁 项 
集 性 质 的 先 验 知识 。Apriori 算法 使 用 一 种 称 为 逐 层 搜 索 的 迭代 方法 ， 其 中 项 集 用 于 探索 
(k+1) 项 集 。 首 先 ， 通 过 扫描 数据 库 ， 累 计 每 个 项 的 计数 ， 并 收集 满足 最 小 支持 度 的 项 ， 





O Y 是 X 的 真 超 项 集 ， 如 果 X 是 了 的 真子 项 集 ， 即 如 果 XCY。 换 言 之 , 中 的 每 个 项 都 包含 在 Y 中 ,但 是 Y 中 至 
少 有 一 个 项 不 在 XX 中 。 
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找 出 频繁 1 项 集 的 集合 。 该 集合 记 为 L。 然 后 ， 使 用 工 找 出 频繁 2 项 集 的 集合 普 ， 使 用 疡 
找 出 3 ， 如 此 下 去 ， 直 到 不 能 再 找到 频繁 上 项 集 。 找 出 每 个 需要 一 次 数据 库 的 完整 扫描 。 

为 了 提高 频繁 项 集 逐 层 产生 的 效率 ， 一 种 称 为 先 验 性 质 (Apriori property) 的 重要 性 质 
用 于 压缩 搜索 空间 。 

先 验 性 质 ; 频繁 项 集 的 所 有 非 空子 集 也 一 定 是 频繁 的 。 

先 验 性 质 基于 如 下 观察 。 根 据 定义 ， 如 果 项 集 了 不 满足 最 小 支持 度 瘟 值 min_sup, R)I 
不 是 频繁 的 ， 即 P(7) < min_sup。 如 果 把 项 4 添加 到 项 集 了 中 ， 则 结果 项 集 ( 即 TU4) 不 可 
能 比 了 更 频繁 出 现 。 因 此 ，71U4 也 不 是 频繁 的 ， 即 P(TU4) < min_sup。 

该 性 质 属于 一 类 特殊 的 性 质 ， 称 为 反 单调 性 (antimonotone) ， 意 指 如 果 一 个 集合 不 能 通 
过 测试 ， 则 它 的 所 有 超 集 也 都 不 能 通过 相同 的 测试 。 称 它 为 反 单调 的 ， 因 为 在 通 不 过 测试 的 
意义 下 ， 该 性 质 是 单调 的 9 。 

“如 何在 算法 中 使 用 先 验 性 质 ?” 为 理解 这 一 点 ， 我 们 考察 如 何 使 用 L_, 找 出 L, Ep 
£ 之 2。 下 面 的 两 步 过 程 由 连接 步 和 剪 梳 步 组 成 。 

(1) 连接 步 : JRE L, BHH 上 与 自身 连接 产生 候选 上 项 集 的 集合 。 该 候选 项 集 
的 集合 记 为 Ci。 设 4 AL Æ LL PUTNE. WS LUL RRL HBB (例如 ,41 [k-2] 
表示 4 的 倒数 第 2 项 )。 为 了 有 效 地 实现 ，Apriori 算法 假定 事务 或 项 集中 的 项 按 字典 序 排 
序 。 对 于 ( -1) WEL, 这 意味 把 项 排序 ,使 得 LL1] <4[2] <--<L[k-1], WHER 
LDI Las SPL, ,的 元 素 是 可 连接 的 ， 如 果 它 们 前 (上 -2) 个 项 相同 。 即 ，L_, 的 元 素 
LML 是 可 连接 的 ， 如 果 (1,[1] =L[1]) A(1,[2] =1,[2]) Av A (1,[k-2] =1,[k -2]) 
A(L[k-1] <b [k-1])o RF Ok] <4Lk-1])〉 是 简单 地 确保 不 产生 重复 。 连 接 / 
All, 产生 的 结果 项 集 是 11,01], 4[2],…, 4[k-1], Lb[k-1]}。 

(2) BRE: C, Æ L 的 超 集 ， 也 就 是 说， C, 的 成 员 可 以 是 也 可 以 不 是 频繁 的 ， 但 所 有 
的 频繁 上 项 集 都 包含 在 C, 中 。 扫 描 数据 库 ， 确 定 C 中 每 个 候选 的 计数 ， 从 而 确定 L (R 
据 定 义 ， 计 数值 不 小 于 最 小 支持 度 计数 的 所 有 候选 都 是 频繁 的 ， 从 而 属于 五 ) Rm, C 可 
能 很 大 ， 因 此 所 涉及 的 计算 量 就 很 大 。 为 了 压缩 C,， 可 以 用 以 下 办 法 使 用 先 验 性 质 。 任 何 
非 频繁 的 (4 -1) 项 集 都 不 是 频繁 项 集 的 子 集 。 因 此 ， 如 果 一 个 候选 大 项 集 的 〈 -1) 
项 子 集 不 在 L_, 中 ， 则 该 候选 也 不 可 能 是 频繁 的 ， 从 而 可 以 从 C, 中 删除 。 这 种 子 集 测试 可 
以 使 用 所 有 频繁 项 集 的 散 列 树 快速 完成 。 

例 6.3 Apriori 算法 。 看 一 个 的 具体 例子 。 该 例 基 于 表 6. 1 AllElectronics 的 事务 数 
TRE D。 该 数据 库 有 9 个 事务 ， 即 | 万 | =9。 使 用 图 6. 2 解释 Apriori 算法 发 现 万 中 的 频 
繁 项 集 。 


表 6.1 AllElectronics 某 分 店 的 事务 数据 





商品 ID 的 列表 
,12, 5 


商品 ID 的 列表 












(1) 在 算法 的 第 一 次 迭代 时 ， 每 个 项 都 是 候选 1 项 集 的 集合 C 的 成 员 。 算 法 简单 地 扫 





O ” 先 验 性 质 有 许多 应 用 。 例 如 ， 在 数据 立方 体 计算 时 ， 它 可 以 用 来 对 搜索 剪 枝 〈 见 第 5 章 ) 。 
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描 所 有 的 事务 ， 对 每 个 项 的 出 现 次 数 计数 。 

(2) 假设 最 小 支持 度 计数 为 2， 即 min_sup =2 OE, 谈论 的 是 绝对 支持 度 ， 因 为 使 用 
的 是 支持 度 计数 。 对 应 的 相对 支持 度 为 2/9 =22% ) 。 可 以 确定 频繁 1 项 集 的 集合 五 。 它 由 
满足 最 小 支持 度 的 候选 1 项 集 组 成 。 在 我 们 的 例子 中 ，C, 中 的 所 有 候选 都 满足 最 小 支持 度 。 

(3) 为 了 发 现 频繁 2 项 集 的 集合 [,， 算 法 使 用 连接 LAL 产生 候选 2 项 集 的 集合 
Cx? Cy 由 Cin 个 2 项 集 组 成 。 注 意 ， 在 剪 枝 步 ， 没 有 候选 从 Cs 中 删除 ， 因 为 这 些 候选 的 
每 个 子 集 也 是 频繁 的 。 

(4) HR DPSS, RH C, 中 每 个 候选 项 集 的 支持 计数 ， 如 图 6. 2 的 第 二 行 中 间 的 表 
所 示 。 
L 


支持 度 计数 








扫描 DP, 对 
每 个 候选 计数 候选 的 支持 度 计数 与 


最 小 支持 度 计数 比较 










































C, C, 
由 六 产生 [支持 度 计数 ] 
| 项 集 | ¥ > 
IEC: (11,12) | 扫描 P， 对 i zier E ganser 
{11, 13} | 每 个 候选 计数 | {11, 13} 4 计数 与 最 小 支 
11.14} 1 持 度 计数 比较 
{11, 15} 2 
{12,13} 4 
(12, 14} 2 
(12, 15} 2 
{13, 14} 0 
{13, 15} 1 
{14, 15} 0 
C C. L 
; 3 选 的 支持 度 2 
项 集 | 支持 度 计数 民选 的 支持 项 集 ”| 支持 度 计数 





由 /产生 {11, 12, 13} HHD, at H1, 12, 13} 2 计数 与 最 小 支 11, 12, 13} 2 
候选 C， ” ”| 每 个 候选 计数 | ““” 持 度 计数 比较 | LL 

{11, 12, 15} {11, 12, IS} 2 {11, 12, 15} 2 
图 6. 2 候选 项 集 和 频繁 项 集 的 产生 ， 最 小 支持 计数 为 2 


(5) 然后 ， 确 定 频 繁 2 项 集 的 集合 L, Ch C, 中 满足 最 小 支持 度 的 候选 2 项 集 组 成 。 

(6) 候选 3 项 集 的 集合 G 的 产生 详细 地 列 在 图 6.3 中 。 在 连接 步 ， 首 先 令 G =L DAL = 
1111, 2, B}, {N, 2, 5}, (1, B, 5}, {12, B, M}, iR, B, I5}, iR, M, 
51 } 。 根 据 先 验 性 质 ， 频 繁 项 集 的 所 有 子 集 必须 是 频繁 的 ， 可 以 确定 后 4 个 候选 不 可 能 是 频 
繁 的 。 因 此 ， 把 它们 从 C 中 删除 ， 这 样 ， 在 此 后 扫描 DD 确定 L 时 就 不 必 再 求 它们 的 计数 
值 。 注 意 ， 由 于 Apriori 算法 使 用 逐 层 搜索 技术 ， 给 定 一 个 候选 上 项 集 ， 只 需要 检查 它们 的 
(k-1) 项 子 集 是 否 频 繁 。C; 剪 枝 后 的 版 本 在 图 6. 2 底部 的 第 一 个 表 中 给 出 。 

(7) 扫描 D 中 事务 以 确定 L,, CH C 中 满足 最 小 支持 度 的 候选 3 项 集 组 成 ( 见 
图 6.2)。 

















QL, PAL, SHE Ly xL, AW L OL, 的 定义 要 求 两 个 连接 的 项 集 共享 -1 =0 个 项 。 
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(a) 连接 : GeL Left, 12}，{11，13}, 
pa{{11, 12) 

={{11, I2, 13}, {11, 12, 15}, {11, 

(b》 使 用 先 验 性 质 前 枝 : 频繁 项 集 的 所 有 非 空 子 集 必 须 是 频繁 的 。 存 在 候选 项 集 ， 其 子 集 不 是 频繁 的 吗 ? 
a (Il, 12, 13; 的 2 项 子 集 是 {I1， 


{I1，I2，13} 保 留 在 C; 中 。 


m {[1，I2，15} 的 2 项 子 集 是 {11， 


{11，I2，15} 保 留 在 C, 中 。 


s {11，13，!5} 的 2 项 子 集 是 {11， 


从 C; 中 删除 {1 > 13, 15}。 


a {12，13，14} 的 2 项 子 集 是 {12， 


从 C; 中 删除 {12，13，[4}。 


m {12，、[3，15} 的 2 项 子 集 是 {12， 


从 C; 中 删除 {I[2，[3，[5}。 


m {12，I4，15} 的 2 项 子 集 是 {12， 


从 C; 中 删除 {12，13，15}。 
(c〉 因 此 ， 前 枝 后 Cs={{11，12，13} 


» fll, [2, 


H1, 15}, {12, 13}, {12, 14}, {12, B} 
{I1, 15}, €12, 13}, €12, 14}, (12, 153} 
13, 15}, {12, 13, 14}, (12, 13, 15}, (12, 14, 15}} 


» tll, 13}, 


12}. (I, 13}#M{12, 13}. {11, 12, SMARTS L ICR. At, 


12，15} 的 所 有 2 项 子 集 都 是 L, 的 元 素 。 因 此 ， 


~ 


12}. , ESSAII2, 15}. (1, 





13，!5) 不 是 2 的 元 素 ， 因 而 不 是 频繁 的 。 因 此 ， 


~ 
— 
= 


13}, ，[5} 和 {13，15}。 


13}、{12，14} 和 {13，14}。{13，14} 不 是 ,的 元 素 ， 因 而 不 是 频繁 的 。 因 此 ， 


13}、{12，I5} 和 {13，15}。{13，[5} 不 是 ,的 元 素 ， 因 而 不 是 频繁 的 。 因 此 ， 


14}、{12，15} 和 {14，15}。{14，15} 不 是 ,的 元 素 ， 因 而 不 是 频繁 的 。 因 此 ， 


[5S}}。 





图 6.3 使 用 先 验 性 质 ， 候选 3 项 集 的 集合 CG 由 L 产生 和 前 枝 
(8) PAEH L DL, 产生 候选 4 项 集 的 集合 C,。 尽 管 连接 产生 结果 |11, 2, B, 


511} ， 但 是 这 个 项 集 被 剪 去 ， 因 为 它 的 子 集 IP, B, 5) 不 是 频繁 的 。 这 样 ，C, = 名， 因 
此 算法 终止 ， 找 出 了 所 有 的 频繁 项 集 。 


图 6.4 给 出 Apriori 算法 和 它 的 相关 过 程 的 伪 代 码 。Apriori 算法 的 第 1 步 找 出 频繁 1 
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项 集 的 集合 Lio 在 第 2 ~ 10 步 ， 对 于 k=2, L;_1 用 于 产生 候选 C,, 以 便 找 出 Lio aprio- 


ri_gen 过 程 产 生 候 选 ， 然 后 使 用 先 验 性 质 删除 那些 具有 非 频繁 子 集 的 候选 (步骤 3)。 
该 过 程 在 下 面 介绍 。 一 旦 产生 了 所 有 的 候选 ， 就 扫描 数据 库 (步骤 4)。 对 于 每 个 事务 ， 


使 用 subset 函数 找 出 该 事务 中 是 候选 的 所 有 子 集 〈 步 又 5) ， 并 对 每 个 这 样 的 候选 标 加 
计数 (步骤 6 和 步骤 7) 。 最 后 ， 所 有 满足 最 小 支持 度 的 候选 (步骤 9) 形成 频繁 项 集 的 
集合 L (步骤 11)。 然 后 ， 调 用 一 个 过 程 ， 由 频繁 项 集 产生 关联 规则 。 该 过 程 在 6. 2. 2 节 


介绍 。 


算法 6.2.1 Apriori。 使 用 逐 层 选 代 方法 基于 候选 产生 找 出 频繁 项 集 。 


输入 : 
° D: 事务 数据 库 。 
o minsup: 最 小 支持 度 阐 值 。 

输出 : L, D 中 的 频繁 项 集 。 

方法 : 
(1) 
(2) 
(3) 
(4) 
(5) 


L, =find_frequent_1_itemsets( D) ; 
for(k=2; L, , AD; k++) | 


C, =aproiri_gen(L,_,); 
for each 34 te D | 
C, = subset(C,, t); 


4 扫描 DP， 进行 计数 
Z 得 到 4, 的 子 集 ， 它 们 是 候选 








图 6.4 挖掘 布尔 关联 规则 发 现 频繁 项 集 的 Apriori 算法 
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(6) for each 候选 ce C, | 
(7) c. count + +; 

(8) j 

(9) L,= {c(€,le. count> min_sup} 


(10) } 

(11) return L=U,L,; 

procedure apriori gen(L, |: frequent(k — 1) itemset) 

(1) for each Wi L eL, 

(2) for each 项 集 f, e L, 

(3) C01] =4[1}) AAC [k-2]=L[k-2])A([k-1] <b [k-2]) then} 





(4) c=1, hl; Z 连接 步 : 产生 候选 

(5) if has_infrequent_subset(c, L,.,) then 

(6) delete c; Z 剪 枝 步 : 删除 非 频 繁 的 候选 

(7) else add c to C,; 

(8) | 

(9) return C,; 

procedure has_infrequent_subset. (c: candidate k itemset; L,_,; frequent(k — 1) itemset) 
Z 使 用 先 验 知识 


(1) for each( & -1) subset s of c 
(2) ifs¢ L,_,then 

(3) return TRUE; 

(4) return FALSE; 














图 6.4 (BE) 


如 上 所 述 ， apriori gen 做 两 个 动作 : RABE. 在 连接 部 分 ，L_1 与 L,_, 连接 产 
生 可 能 的 候选 (步骤 1 ~ 步骤 4)。 剪 枝 部 分 (步骤 5 ~ 步骤 7) 使 用 先 验 性 质 删除 具有 非 频 
繁 子 集 的 候选 。 非 频繁 子 集 的 测试 显示 在 过 程 has_infrequent_subset 中 。 


6.2.2 由 频繁 项 集 产生 关联 规则 


一 旦 由 数据 库 D 中 的 事务 找 出 频繁 项 集 ， 就 可 以 直接 由 它们 产生 强 关联 规则 ( 强 关联 
规则 满足 最 小 支持 度 和 最 小 置信 和 度 )。 对 于 置信 和 度 ， 可 以 用 (6.4) 式 计 算 。 为 完整 起 见 ， 
这 里 重新 给 出 该 式 

confidence( A—B) = P(A |B) = support_count(A U B) 


support_count( A) 
条 件 概 率 用 项 集 的 支持 度 计 数 表示 ， 其 中 ，suppori_couni( 4UB) 是 包含 项 集 4U 的 事 
务 数 ， 而 support_count(A) 是 包含 项 集 4 的 事务 数 。 根 据 该 式 ， 关 联 规 则 可 以 产生 如 下 : 
© 对 于 每 个 频繁 项 集 !， 产 生 1 的 所 有 非 空子 集 。 


。 对 于 1 的 每 个 非 空子 集 s， 如 果 SPpor-countti) nin conf, WAEI “s> 5)”。 


support_count(s) 
其 中 ，min_conf 是 最 小 置信 和 度 闭 值 。 

由 于 规则 由 频繁 项 集 产生 ， 因 此 每 个 规则 都 自动 地 满足 最 小 支持 度 。 频 繁 项 集 和 它们 的 
支持 度 可 以 预先 存放 在 散 列表 中 ， 使 得 它们 可 以 被 快速 访问 。 

例 6.4 产生 关联 规则 。 让 我 们 看 一 个 例子 ， 它 基于 前 面 表 6. 1 中 AllElectronics 事务 数 
据 库 。 该 数据 包含 频繁 项 集 X = 111， 也 ,11 。 可 以 由 XX 产生 哪些 关联 规则 ? X IES 
是 il, B), iM, 5}, 12, 5), {N}, {2} 和 {5}。 结 果 关 联 规则 如 下 ， 每 个 都 列 
出 了 置信 和 度 。 
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{I1,T2}=515, confidence =2/4 =50% 
{I1,I5}>512, confidence =2/2 =100% 
{I12,1I5}=>911, confidence =2/2 =100% 
I13{12,15}, confidence =2/6 =33% 
I2={1I1,15}, confidence =2/7 =29% 
I5[j{Ii,12}, confidence =2/2 =100% 


WRB) BSE BUA 70% ， 则 只 有 第 2、 第 3 和 最 后 一 个 规则 可 以 输出 ， 因 为 只 有 这 
些 是 强 规则 。 注 意 ， 与 传统 的 分 类 规则 不 同 ， 关 联 规则 的 右 端 可 能 包含 多 个 合 取 项 。 = 


6.2.3 提高 Apriori 算法 的 效率 

“起 样 才 能 进一步 提高 基于 Apriori 挖 气 的 效率 ?” 已 经 提出 了 许多 Apriori 算法 的 变形 ， 
旨 在 提高 原 算法 的 效率 。 其 中 一 些 变形 概述 如 下 。 

基于 散 列 的 技术 〈 散 列 项 集 到 对 应 的 桶 中 ) : 一 种 基于 散 列 的 技术 可 以 用 于 压缩 候选 天 
项 集 的 集合 C;(% > 1) 。 例 如 ， 当 扫描 数据 库 中 每 个 事务 时 ， 由 C 中 的 候选 1 项 集 产生 频繁 
1 项 集 L 时 ， 可 以 对 每 个 事务 产生 所 有 的 2 项 集 ， 将 它们 散 列 〈 即 映射 ) 到 散 列 表 结 构 的 
不 同 桶 中 ， 并 增加 对 应 的 桶 计数 〈( 见 图 6.5) 。 在 散 列 表 中 ， 对 应 的 桶 计数 低 于 支持 度 阔 值 
的 2 项 集 不 可 能 是 频繁 的 ， 因 此 应 该 从 候选 集中 删除 。 这 种 基于 散 列 的 技术 可 以 显著 地 压缩 
需要 考察 的 项 集 (特别 是 ， 当 大 =2 f). 




















使 用 如 下 散 列 函数 创建 散 | s | 6 | 
IRH: 4 | 4 

h xy) = (Cx 的 序 )x10 桶 内 容 {11, 1434411, 15} {11, 123/411, 13} 

{13, 15}|{11, 15} {11 123] (11, 13} 

+ (的 序 》mod 7 {11, 12}|{11. 13} 

a {11, 12} {11, 13} 

















图 6. 5 候选 2 项 集 的 散 列表 Hi。 该 敬 列 表 在 由 C 确定 L 时 通过 扫描 表 6. 1 的 事务 数据 库 产 生 。 如 
果 最 小 支持 度 为 3， 则 桶 0、1、3 和 4 中 的 项 集 不 可 能 是 频繁 的 ， 因 此 它们 不 包含 在 C, 中 


事务 压缩 (上 压缩 进一步 迭代 扫描 的 事务 数 ) : 不 包含 任何 频繁 上 项 集 的 事务 不 可 能 包含 
任何 频繁 (%+1) 项 集 。 因 此 ， 这 种 事务 在 其 后 的 考虑 时 ， 可 以 加 上 标记 或 删除 ， 因 为 产 
生 7 项 集 G>k) 的 数据 库 扫描 不 再 需要 它们 。 - 

划分 (为 找 候选 项 集 划 分 数据 ) : 可 以 使 用 划分 技术 ， 它 只 需要 两 次 数据 库 扫 描 ， 就 能 控 掘 
频繁 项 集 〈 见 图 6.6)。 它 包含 两 个 阶段 。 在 阶段 I， 算 法 把 D 中 的 事务 化 分 成 n 个 非 重 蔡 的 分 区 。 
如 果 D 中 事务 的 最 小 相对 支持 度 六 值 为 min_sup， 则 每 个 分 区 的 最 小 支持 度 计数 为 min_sup x 该 分 
区 中 的 事务 数 。 对 每 个 分 区 ， 找 出 所 有 的 局 部 频繁 项 集 ( 即 在 该 分 区 内 的 频繁 项 集 ) 。 

阶段 I 





DD 中 的 事务 





6.6 通过 划分 挖掘 
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局 部 频繁 项 集 可 能 是 也 可 能 不 是 整个 数据 库 D 的 频繁 项 集 。 然 而 ,，D 的 任何 频繁 项 集 
必须 作为 局 部 频繁 项 集 至 少 出 现在 一 个 分 区 中 2 。 因 此 ， 所 有 局 部 频繁 项 集 都 是 刀 的 候选 项 
集 。 来 自 所 有 分 区 的 局 部 频繁 项 集 作为 D 的 全 局 候选 项 集 。 在 阶段 厂 ， 第 二 次 扫描 DD， 评估 
每 个 候选 的 实际 支持 度 ， 以 确定 全 局 频繁 项 集 。 分 区 的 大 小 和 分 区 的 数目 这 样 确定 ， 使 得 每 
个 分 区 都 能 够 放 人 内 存 ， 从 而 每 遍 只 需要 读 一 次 。 

抽样 〈 对 给 定数 据 的 一 个 子 集 上 挖掘) : 抽样 方法 的 基本 思想 是 ， 选 取 给 定数 据 库 D 的 
随机 样本 S， 然 后 在 5 而 不 是 在 D 中 搜索 频繁 项 集 。 这 种 方法 牺牲 了 一 些 精度 换取 了 有 效 
性 。 样 本 5 的 大 小 选取 使 得 可 以 在 主 存 中 搜索 5 的 频繁 项 集 ， 从 而 只 需要 扫描 一 次 S 中 的 事 
务 。 由 于 搜索 $ 而 不 是 D 的 频繁 项 集 ， 因 此 可 能 丢失 一 些 全 局 频繁 项 集 。 

为 降低 这 种 可 能 性 ， 使 用 比 最 小 支持 度 低 的 支持 度 阔 值 来 找 出 5 的 局 部 频繁 项 集 OE 
为 广 ) 。 然 后 ， 数 据 库 的 其 余部 分 用 于 计算 到 中 每 个 项 集 的 实际 频 度 。 可 以 使 用 一 种 机 制 
来 确定 是 否 所 有 的 频繁 项 集 都 包含 在 万 中。 如 果实 际 包含 了 D 中 的 所 有 频繁 项 集 ， 则 只 
需要 扫描 一 次 D; 否则 ， 可 以 进行 第 二 次 扫描 ， 找 出 在 第 一 次 扫描 时 遗漏 的 频繁 项 集 。 当 效 
率 最 为 重要 时 ， 如 计算 密集 的 应 用 必须 频繁 进行 时 ， 抽 样 方法 特别 合适 。 

动态 项 集 计数 (在 扫描 的 不 同 点 添加 候选 项 集 ) ， 动态 项 集 计 数 技术 将 数据 库 划分 为 用 
开始 点 标记 的 块 。 不 像 Apriori 算法 仅 在 每 次 完整 的 数据 库 扫 描 前 确定 新 的 候选 ， 在 这 种 变 
形 中 ， 可 以 在 任何 开始 点 添加 新 的 候选 项 集 。 该 技术 使 用 迄今 为 止 的 计数 作为 实际 计数 的 下 
界 。 如 果 迄 今 为 目的 计数 满足 最 小 支持 度 ， 则 该 项 集 添加 到 频繁 项 集 的 集合 中 ， 并 且 可 以 用 
来 产生 更 长 的 候选 。 为 了 找 出 所 有 的 频繁 项 集 ， 结 果 算 法 需要 的 数据 库 扫 描 比 Apriori 算 
法 少 。 

其 他 变形 在 第 7 章 讨论 。 


6. 2.4 挖掘 频繁 项 集 的 模式 增长 方法 
正如 我 们 已 经 看 到 的 ， 在 许多 情况 下 ，Apriori 算法 的 候选 产生 -检查 方法 显著 压缩 了 
候选 项 集 的 规模 ， 并 产生 很 好 的 性 能 。 然 而 ， 它 可 能 受 两 种 非 平 凡 开 销 的 影响 。 
© 它 可 能 仍然 需要 产生 大 量 候 选项 集 。 例 如 ， 如 果 有 104 个 频繁 1 项 集 ， 则 Apriori 算 
法 需要 产生 多 达 10 个 候选 2 项 集 。 
© 它 可 能 需要 重复 地 扫描 整个 数据 库 ， 通 过 模式 匹配 检查 一 个 很 大 的 候选 集合 。 检 查 
数据 库 中 每 个 事务 来 确定 候选 项 集 支 持 度 的 开销 很 大 。 
“可 以 设计 一 种 方法 ， 控 气 全 部 频繁 项 集 而 无 须 这 种 代价 昂贵 的 候选 产生 过 程 吗 ?” 
一 种 试图 这 样 做 的 有 趣 的 方法 称 为 频繁 模式 增长 〈 Frequent-Pattem Growth，FP- growth) , 
它 采取 如 下 分 治 策略 : 首先 ， 将 代表 频繁 项 集 的 数据 库 压 缩 到 一 棵 频繁 模式 树 (FP 
树 )， 该 树 仍 保留 项 集 的 关联 信息 。 然 后 ， 把 这 种 压缩 后 的 数据 库 划 分 成 一 组 条 件数 据 
È (一 种 特殊 类 型 的 投影 数据 库 ) ， 每 个 数据 库 关联 一 个 频繁 项 或 “模式 段 "， 并 分 别 
挖掘 每 个 条 件数 据 库 。 对 于 每 个 “模式 片段 ”"， 只 需要 考察 与 它 相 关联 数据 集 。 因 此 ， 
随 着 被 考察 的 模式 的 “增长 ”， 这 种 方法 可 以 显著 地 压缩 被 搜索 的 数据 集 的 大 小 。 看 例 
子 6.5。 
例 6.5 FP-growth (发 现 频繁 模式 而 不 产生 候选 ) 。 使 用 频繁 模式 增长 方法 ， 重 新 考 
察 例 6. 3 中 表 6. 1 的 事务 数据 库 刀 的 挖掘 。 





O 该 性 质 的 证 明 留 作 习 题 (见习 题 6. 3d) 。 
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数据 库 的 第 一 次 扫描 与 Apriori 算法 相同 ， 它 导出 频繁 项 (1 项 集 ) 的 集合 ， 并 得 到 
它们 的 支持 度 计数 〈( 频 度 ) 。 设 最 小 支持 度 计数 为 2。 频 繁 项 的 集合 按 支 持 度 计数 的 递减 
序 排序 。 结 果 集 或 表 记 为 性。 这 样 ， 有 ZL = il2:71，10:61，1B9:61，1HB4:， 2}, 
115: 211。 

然后 ，FP 树 构 造 如 下 : 首先 ， 创 建树 的 根 结 点 ， 用 “nul” 标 记 。 第 二 次 扫描 数据 库 
刀 。 每 个 事务 中 的 项 都 按 志 中 的 次 序 处理 ( 即 按 递减 支持 度 计数 排序 ) ， 并 对 每 个 事务 创建 
一 个 分 枝 。 例 如 ， 第 一 个 事务 “T100: 1, R, 5” BAZAT FEL PREKE BR, I, 
上 5) ， 导 致 构造 树 的 包含 三 个 结 点 的 第 一 个 分 枝 《 了 有 2; 1). (Il: 1). (IS: 1), Ep 2 作为 
根 的 子女 链接 到 根 ，11 链接 到 2, 15 链接 到 11。 第 二 个 事务 T200 按 工 的 次 序 包含 项 了 2 和 
4， 它 导致 一 个 分 枝 ， 其 中 了 链接 到 根 ，14 链接 到 全 。 然 而 ， 该 分 枝 应 当 与 T100 已 存在 的 
路 径 共享 前 缀 了 呈 。 因 此 ， 将 结 点 了 的 计数 增加 1， 并 创建 一 个 新 结 点 《14: 1) ， 它 作为 子女 
链接 到 《了 且 : 2)。 一 般 地 ， 当 为 一 个 事务 考虑 增加 分 枝 时 ， 沿 共同 前 级 上 的 每 个 结 点 的 计数 
增加 1， 为 前 绎 之 后 的 项 创建 结 点 和 链接 。 

为 了 方便 树 的 遍历 ， 创 建 一 个 项 头 表 ， 使 每 项 通过 一 个 结 点 链 指向 它 在 树 中 的 位 置 。 扫 
描 所 有 的 事务 后 得 到 的 树 显示 在 图 6. 7 中 ， 带 有 相关 的 结 点 链 。 这 样 ， 数 据 库 频繁 模式 的 挖 
掘 问题 就 转换 成 挖掘 FP 树 的 问题 。 





支持 
项 ID 度 计 数 结 点 链 





图 6.7 存放 压缩 的 频繁 模式 信息 的 FP 树 


FP 树 的 挖掘 过 程 如 下 。 由 长 度 为 1 的 频繁 模式 (初始 后 缀 模式 ) 开始 ， 构 造 它 的 条 件 
模式 基 (一 个 “ 子 数据 库 ” ， 由 FP 树 中 与 该 后 绥 模 式 一 起 出 现 的 前 组 路径 集 组 成 ) 。 然 后 ， 
构造 它 的 〈 条 件 ) FP 树 ,， 并 递归 地 在 该 树 上 进行 挖掘。 模式 增长 通过 后 级 模式 与 条 件 FP 
树 产 生 的 频繁 模式 连接 实现 。 

该 FP 树 的 挖掘 过 程 总 结 在 表 6. 2 中 ,细节 如 下 。 首 先 考虑 上 ， 它 是 工 中 的 最 后 一 项 ， 
而 不 是 第 一 项 。 从 表 的 后 端 开始 的 原因 随 着 解释 FP 树 挖 据 过 程 就 会 清楚 。15 出 现在 图 6.7 
的 FP 树 的 两 个 分 枝 中 。 (5 的 出 现 容易 沿 它 的 结 点 链 找到 。) 这 些 分 枝 形 成 的 路 径 是 〈 卫 ， 
N, 15; 1) M (2, 1, B, 5: 1). Akk, SRD WER, CMM MRR 
(12, Il: 1) M (2, O, B: 1), CMER D 的 条 件 模 式 基 。 使 用 这 些 条 件 模式 基 作 为 事 
务 数据 库 ， 构 造 5 HREF 树 ， 它 只 包含 单个 路 径 《I2: 2, 11: 2); EEB, AXB 
的 支持 度 计数 为 1， 小 于 最 小 支持 度 计 数 。 该 单个 路 径 产 生 频繁 模式 的 所 有 组 合 : {12，5: 
2}, {I1, I5; 2}, {12, Il, 5; 2}, 
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表 6.2 通过 创建 条 件 ( 子 ) RAB FP p 





项 条 件 模 式 基 条 件 FP 树 产生 的 频繁 模式 

5 {{2, 0:1}, {2, 1, B: 1 (B2: 2, 11: 2) {2, 5: 2}, {1, 5: 2}, |R, 1, I5; 2} 
4 {{2, 0:1}, {2: 1}) (2: 2) (12, 4: 2} 

B [f12, N; 2}, |R: 2}, {1:; 2}} (B: 4, I; 2), (0: 2) IB, B: 4}, {N, B: 41, IR, H, B; 2} 
I {{2: 4} (I2: 4) (2, I: 4} 





对 于 到 ， 它 的 两 个 前 缀 形成 条 件 模式 基 {2, N: 1}, 12: 1 ， 产 生 一 个 单 结 点 的 
条 件 FP R (12: 2》， 并 导出 一 个 频繁 模式 12，B: 2}, 

类 似 于 以 上 分 析 ，13 的 条 件 模 式 基 是 1f2,，IL: 2}, {2:2}, {Il: 21}, EAE 
FP 树 有 两 个 分 枝 〈Z: 4, U: 2) A (11: 2), 支持 度 
如 图 6.8 所 示 。 它 产生 模式 集 ， | { 卫 ，13; 4], mpo HR gng Pa 
H, B: 4}, 2, Il, B: 2}, BB, U 的 ` A “ 
条 件 模式 基 是 |2, 4)}, ER FP 树 只 包含 一 
MR (12: 4》， 只 产生 一 个 频繁 模式 |D, rae 
Il: 41。 挖 气 过 程 总 结 在 图 6.9 中 。 m 11:2 

FP- growth 方法 将 发 现 长 频繁 模式 的 问题 转 图 6.8 与 条 件 结 点 B 相关 联 的 条 件 FP 树 
换 成 在 较 小 的 条 件数 据 库 中 递归 地 搜索 一 些 较 短 模式 ， 然 后 连接 后 缀 。 它 使 用 最 不 频繁 的 项 
作 后 缀 ， 提 供 了 较 好 的 选择 性 。 该 方法 显著 地 降低 了 搜索 开销 。 


算法 : FP-Growth。 使 用 FP 树 ， 通 过 模式 增长 挖 据 频 繁 模式 。 
输入 : 
MD. 事务 数据 库 。 
图 mi sup: Be) XH BUA. 
输出 : 频繁 模式 的 完全 集 。 
方法 : 
1. 按 以 下 步骤 构造 FP 树 : 
(a) 扫 描 事 务 数据 库 D 一 次 。 收 集 频 繁 项 的 集合 和 它们 的 支持 度 计数 。 对 下 按 支持 度 计数 降 序 排序 ， 结 果 为 频繁 
项 列表 Lo 
(b) 创建 FP 树 的 根 结 点 ， 以 “null” 标 记 它 。 对 于 DD 中 每 个 事务 Trans, Hf: 
选择 Trans 中 的 频繁 项 ， 并 按 上 中 的 次 序 排序 。 设 Trans 排序 后 的 频繁 项 列表 为 [pl P] ， 其 中 p 是 第 一 个 元 
素 ， 而 P 是 剩余 元 素 的 列表 。 调 用 insert_tree([p1P] ,7) 。 该 过 程 执 行情 况 如 下 。 如 果 TT 有 子女 六 使 得 
N. item- name =p. item-name, 则 N 的 计数 增加 1; 否则 ,创建 一 个 新 结 点 N, 将 其 计数 设置 为 1 ,链接 到 它 的 父 结 
点 了 ,并 且 通 过 结 点 链 结构 将 其 链接 到 具有 相同 iem-name 的 结 点 。 如 果 P 非 空 , 则 递归 地 调用 insert_tree 
(P.N). 
. FP 树 的 挖掘 通过 调用 FP_growth( FP_tree null) 实现 。 该 过 程 实现 如 下 。 
procedure FP_growth( Tree, a) 
(1) if Tree 包含 单个 路 径 P then 
(2)for 路 径 P 中 结 点 的 每 个 组 合 ( 记 作 BB) 
(3) 产 生 模 式 BUa, 其 支持 度 计 数 support_count 等 于 B 中 结 点 的 最 小 支持 度 计数 ; 
(4 ) else for Tree 的 头 表 中 的 每 个 et 
(5) 产 生 一 个 模式 B=a,Ua, 其 支持 度 计数 support_count = a,. support_count; 
(6) 构 造 B 的 条 件 模式 基 , 然 后 构造 B 的 条 件 FP 树 Trees; 
(7)if Tree, # Othen 


11:2 














N 








(8) 调 用 FP_growth( Tree, ,B) ; | 
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当 数 据 库 很 大 时 ， 构 造 基于 主 存 的 FP 树 有 时 是 不 现实 的 。 一 种 有 趣 的 选择 是 首先 将 数 
据 库 划 分 成 投影 数据 库 的 集合 ， 然 后 在 每 个 投影 数据 库 上 构造 FP 树 并 在 每 个 投影 数据 库 中 
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挖 据 。 如 果 投 影 数据 库 的 FP 树 还 不 能 放 进 主 存 ， 该 过 程 可 以 递归 地 用 于 投影 数据 库 。 
对 FP-growth 方法 的 性 能 研究 表明 : 对 于 挖掘 长 的 频繁 模式 和 短 的 频繁 模式 ， 它 都 是 有 
效 的 和 可 伸缩 的 ， 并 且 大 约 比 Apriori 算法 快 一 个 数量 级 。 


6.2.5 使 用 垂直 数据 格式 挖掘 频繁 项 集 

Aprior 算法 和 FP- growth 算法 都 从 TID ARR (BI 1 TID; itemset}) 的 事务 集中 挖掘 
频繁 模式 ， 其 中 TID 是 事务 标识 符 ， 而 iteme 是 事务 TID 中 购买 的 商品 。 这 种 数据 格式 称 为 
水 平 数据 格式 (horizontal data format ) 。 或 者 ， 数 据 也 可 以 用 项 - TID 集 格式 (BI 1 item: 
TID_set}) 表示 ， 其 中 item 是 项 的 名 称 ， 而 TID_se 是 包含 tem 的 事务 的 标识 符 的 集合 。 这 
种 格式 称 为 垂直 数据 格式 (vertical data format) 。 

本 节 考 察 如 何 使 用 垂直 数据 格式 有 效 地 挖掘 频繁 项 集 ， 它 是 等 价 类 变换 (Equivalence 
CLAss Transformation, Eclat) 算法 的 要 点 。 

例 6.6 使 用 垂直 数据 格式 挖掘 频繁 项 集 。 考 虑 例 6. 3 中 表 6. 1 的 事务 数据 库 D 的 水 平 
数据 格式 。 扫 描 一 次 该 数据 集 就 可 以 把 它 转换 成 表 6. 3 所 示 的 垂直 数据 格式 。 


表 6.3 表 6.1 事务 数据 库 DD 的 算 直 数据 格式 





项 集 TD- $% 
I1 {T100, T400, T500, T700, T800, T900} 

了 {TIOO, T200, T300, T400, T600, T800, T900! 
B 1{T300, T500, T600, T700, T800, T900} 


TID - 集 
1T200 ，T4001 
5 | T100, T800 













通过 取 每 对 频繁 项 的 TID 集 的 交 ， 可 以 在 该 数据 集 上 进行 挖掘 。 设 最 小 支持 度 计 数 为 
2。 由 于 表 6. 3 的 每 个 项 都 是 频繁 的 ， 因 此 总 共 进 行 10 次 交 运 算 ， 导 致 8 个 非 空 2 项 集 ， 如 
表 6.4 所 示 。 注 意 , 项 集 {11, 4) 和 B, 5) 都 只 包含 一 个 事务 ， 因 此 它们 都 不 属于 频 
繁 2 项 集 的 集合 。 


表 6.4 垂直 数据 格式 的 2 项 集 





项 集 TID - 集 项 集 TID - 集 
ill, 121 {T100, T400, T800, T900| iR, B} | T300, T600, T800, T900! 
ill, B} | T500, T700, T800, T900} 112, 14} { T200, T400} 
itl, M} | T400 | iR, 5} {T100, T800} 
In, Bt { T100, T800} iB, D| | T800} 





根据 先 验 性 质 ， 一 个 给 定 的 3 项 集 是 候选 3 项 集 ， 仅 当 它 的 每 一 个 2 项 集 子 集 都 是 频繁 
的 。 这 里 ， 候 选 产生 过 程 将 仅 产生 两 个 3 ME: 0, B, B} 和 tll, 2, 5}, Ñu 
些 候 选 3 项 集 任意 两 个 对 应 2 项 集 的 TID 集 的 交 ， 得 到 表 6. 5， 其 中 只 有 两 个 频繁 3 项 集 ; 





{11, 卫 ， B: 2} 和 ill, 2, I; 2h. E 
R65 ”垂直 数据 格式 的 3 项 集 
项 集 TID - 集 
il, 2, BI { T800, T900} 
il, 12, 15} {T100, T800] 


例 6. 6 解释 了 通过 探查 垂直 数据 格式 控 气 频繁 项 集 的 过 程 。 首 先 ， 通 过 扫描 一 次 数据 
集 ， 把 水 乎 格式 的 数据 转换 成 垂直 格式 。 项 集 的 支持 度 计 数 简单 地 等 于 项 集 的 TID 集 的 长 
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度 。 从 =1 开始 ， 可 以 根据 先 验 性 质 ， 使 用 频繁 有 项 集 来 构造 候选 (上 +1) 项 集 。 通 过 取 
PE I RM TO ENE, 计算 对 应 的 (k+1) 项 集 的 TID 集 。 重 复 该 过 程 ， 每 次 有 增加 

， 直 到 不 能 再 找到 频繁 项 集 或 候选 项 集 。 

除了 在 产生 候选 (hk+1) 项 集 时 利用 先 验 性 质 外 ， 这 种 方法 的 男 一 一 优点 是 不 需要 扫描 
数据 库 来 确定 (上 +1) 项 集 的 支持 度 (k 宇 1)。 这 是 因为 每 个 项 集 的 TID 集 携带 了 计算 支 
持 度 的 完整 信息 。 然 而 ，TID 集 可 能 很 长 ， 需 要 大 量 内 存 空间 ， 长 集合 的 交 运算 还 需要 大 量 
的 计算 时 间 。 

为 了 进一步 降低 存储 TID 集合 的 开销 和 交 运 算 的 计算 开销 ， 可 以 使 用 一 种 称 为 差 集 
(diffset) 的 技术 ， 仅 记录 (&+1) 项 集 的 TID 集 与 一 个 对 应 的 项 集 的 TID 集 之 差 。 例 如 ， 
在 例 6. 6 中 ， 有 {11} ={T100, T400, T500, T700, T800, T900} 和 i1, 2} = |T100, 
T400 ，T800 ，T900| 。 两 者 的 差 集 为 diffset( [I1，[2| ，{11} ) = 1T500，T7001 。 这 样 ， 不 必 
记录 构成 i} 和 R) 交集 的 4 个 TID， 可 以 使 用 差 集 只 记录 代表 |} 和 lll, BR} 差 
的 两 个 TID。 实验 表明 ， 在 某 些 情况 下 ， 如 当 数 据 集 稠密 和 包含 长 模式 时 ， 该 技术 可 以 显著 
地 降低 频繁 项 集 垂 直 格 式 挖掘 的 总 开销 。 


6.2.6 挖掘 闭 模式 和 极 大 模式 

在 6.1.2 节 ， 我们 看 到 频繁 模式 挖 拥 可 能 产生 大 量 频繁 项 集 ， 特 别 是 ， 当 最 小 支持 度 阐 
值 设置 较 低 或 数据 集中 存在 长 模式 时 尤其 如 此 。 例 6. 2 表明 闭 频 繁 项 集 S 可 以 显著 减少 频繁 
模式 控 握 所 产生 的 模式 数量 ， 而 且 保持 关于 频繁 项 集 的 集合 的 完整 信息 。 也 就 是 说 ， 从 闭 频 
繁 项 集 的 集合 ， 可 以 很 容易 地 推出 频繁 项 集 的 集合 和 它们 的 支持 度 。 因 此 ， 在 许多 实践 中 ， 
更 希望 挖 据 闭 频繁 项 集 的 集合 ， 而 不 是 所 有 频繁 项 集 的 集合 。 

“如 何 挖 气 闭 频繁 项 集 ?” 一 种 朴素 的 方法 是 ， 首 先 控 掘 频繁 项 集 的 完全 集 ， 然 后 删除 
这 样 的 频繁 项 集 ， 它 们 是 某 个 频繁 项 集 的 真子 集 ， 并 且 具 有 相同 支持 度 。 然 而 ， 这 种 方法 的 
开销 太 大 。 如 例 6. 2 所 示 ， 为 了 得 到 一 个 长 度 为 100 的 频繁 项 集 ， 在 开始 删除 元 余 前 ， 这 种 
方法 首先 必须 导出 2” -1 个 频繁 项 集 。 这 种 开销 太 大 ， 难 以 承受 。 事 实 上 ， 例 6. 2 的 数据 
集中 的 闭 频繁 项 集 的 数量 非常 少 。 

一 种 推荐 的 方法 是 在 挖掘 过 程 中 直接 搜索 闭 频 繁 项 集 。 这 要 求 在 按 气 过 程 中 ，-- 日 识别 
闭 项 集 就 尽快 对 搜索 空间 进行 剪 枝 。 剪 枝 包 括 如 下 策略 。 

项 合并 : 如 果 包 含 频 繁 项 集 碟 的 每 个 事务 都 包含 项 集 了 ， 但 不 包含 了 的 任何 真 超 集 ， 则 
下 LU 了 形成 一 个 闭 频繁 项 集 ， 并 且 不 必 再 搜索 包含 下 但 不 包含 了 的 任何 项 集 。 

例如 ,在 例 6.5 的 表 6.2P, ATA |5: 2) 的 投影 条 件数 据 库 是 112，IL 1 ， 
(2, I1，IB311。 可 以 看 出 它 的 每 个 事务 都 包含 项 集 (L, 1}, ARGS (R, 1! HAE 
集 。 项 集 (2, 11} ne 15) 8%, BMAD 115, 2, Il: 2} ， 并 且 不 必 再 控 据 包 
含 起 但 不 包含 (12, 1} 的 闭 项 集 。 

子 项 集 剪 枝 : errr er MERRY HATH, HE Support _ 
count( X) = support_count(Y), ， 则 X fo X EREE POA RABAT HEE AREE, 
因此 可 以 剪 枝 。 

类 似 于 例 6.2， 假 定 事务 数据 库 只 有 两 个 事务 ， | (gy, a, =, aw), la, ca，…， 





O ”回忆 一 下 ,，X 是 数据 集 5 中 的 闭 频 繁 项 集 ， 如 果 不 存在 X 的 真 超 项 集 了 Y， 使 得 了 在 S 中 与 具有 相同 的 支持 度 计 
数 ， 并且 满足 最 小 支持 度 。 
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au )} ， 并 且 最 小 支持 度 计 数 min_sup =2。 在 第 一 个 项 a, 上 投影 ， 根 据 项 集合 并 优化 导出 频 
繁 项 集 la, a, *, ag: 21。 由 于 support(ja,|) =support(ia，a，…，axoj) =2， 并 
H la} 是 la, a, 0, ay) 的 真子 集 ， 因 此 不 必 再 考察 ao 和 它 的 投影 数据 库 。 对 于 
aa，…，om， 也 可 以 进行 类 似 的 剪 枝 。 这 样 ， 该 数据 集 的 闭 频 繁 项 集 的 挖掘 在 挖掘 了 ci 的 
投影 数据 库 之 后 终止 。 

项 跳 过 : 在 深度 优先 挖掘 闭 项 集 时 ， 每 一 层 都 有 一 个 与 头 表 和 投影 数据 库 相 关联 的 前 组 
项 集 鲜 。 如 果 一 个 局 部 频繁 项 p 在 不 同 层 的 多 个 头 表 中 都 具有 相同 的 支持 度 ， 则 可 以 将 p 从 
较 高 层 头 表 中 剪裁 掉 。 

例如 ， 考虑 上 面 只 有 两 个 事务 的 事务 数据 库 : | (am，a，…，aio)，《〈al，a，…， 
aso) | ， 其 中 min_sup =2。 由 于 a, 在 a, 的 投影 数据 库 中 与 o 在 全 局 头 表 中 具有 相同 的 支持 
度 ， 因 此 可 以 将 a 从 全 局 头 表 中 剪裁 掉 。 对 于 a;，…，aso， 也 可 以 进行 类 似 的 剪裁 。 挖 气 
T a, 的 投影 数据 库 后 不 再 需要 进行 任何 挖掘 。 

除了 在 闭 频繁 项 集 挖掘 过 程 中 对 搜索 空间 进行 前 枝 外 ， 另 一 种 重要 的 优化 是 有 效 地 检查 
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新 发 现 的 频繁 项 集 ， 看 它 是 否 是 闭 的 ， 因 为 挖 据 过 程 本 身 不 能 确保 所 产生 的 每 个 频繁 项 集 都 


是 闭 的 。 

当 一 个 新 的 频繁 项 集 导 出 后 ， 必 须 进 行 两 种 闭 包 检查 : (1) 超 集 检查 ， 检 查 新 的 频繁 
项 集 是 否 是 某 个 具有 相同 支持 度 的 、 已 经 发 现 的 、 闭 项 集 的 超 集 ; (2) 子 集 检查 ， 检 查 新 
发 现 的 项 集 是 否 是 某 个 具有 相同 支持 度 的、 已 经 发 现 的 、 闭 项 集 的 子 集 。 

如 果 在 分 治 框 架 下 采用 项 合并 前 校方 法 ， 则 超 集 检查 实际 上 是 内 置 的 ， 因 此 不 需要 显 式 
地 进行 超 集 检查 。 这 是 因为 如 果 频 繁 项 集 XUY 在 项 集 X 之 后 发 现 ， 并 且 具 有 与 X 相同 的 支 
持 度 ， 则 它 必然 在 X 的 投影 数据 库 中 ， 因 而 必然 已 经 在 项 集合 并 时 产生 。 

为 了 帮助 进行 子 集 检查 ， 可 以 构造 一 棵 压缩 的 模式 树 ， 维 持 已 发 现 的 闭 项 集 的 集合 。 
式 树 的 结构 类 似 于 FP 树 ， 不 同 之 处 在 于 所 有 已 经 发 现 的 闭 项 集 都 显 式 地 存放 在 一 个 对 应 的 
树 分校 中 。 为 了 有 效 地 进行 子 集 检查 ， 可 以 利用 如 下 性 质 : REMARKS. 被 另 一 个 已 经 
发 现 的 闭 项 集 5。 HAS, WM (1) 5. 和 5S。 具有 相同 的 支持 度 ，(2) S. 的 长 度 小 于 S。，(3) 
S. 中 的 所 有 项 都 包含 在 S。 中。 

根据 这 一 性 质 ， 可 以 建立 一 个 两 层 的 散 列 索引 结构 来 快速 访问 模式 树 : 第 一 层 使 用 S. 
中 最 后 一 项 的 标识 符 作为 散 列 码 (因为 该 标识 符 一 定 在 S. 的 分 枝 中 ) ， 第 二 层 使 用 $. 的 支 
持 度 作为 散 列 码 (因为 5. AS, 具有 相同 的 支持 度 )。 这 将 显著 地 加 快 子 集 检查 过 程 。 

上 面 的 讨论 解释 了 闭 频繁 项 集 的 有 效 挖掘 方法 。“ 可 以 将 这 些 方法 扩展 到 极 大 频繁 项 集 
的 挖掘 吗 ?” 由 于 极 大 频繁 项 集 与 闭 频 繁 项 集 具 有 许多 相似 性 ， 这 里 介绍 的 许多 优化 技术 都 
可 以 扩展 到 挖掘 极 大 频繁 项 集 。 然 而 ， 我 们 把 它 作 为 习题 留 给 感 兴趣 的 读者 。 


6.3 ”哪些 模式 是 有 趣 的 : 模式 评估 方法 

大 部 分 关联 规则 挖掘 算法 都 使 用 支持 度 - 置信 度 框 架 。 尽 管 最 小 支持 度 和 置信 度 阔 值 有 
助 于 排除 大 量 无 趣 规则 的 探查 ， 但 仍然 会 产生 一 些 用 户 不 感 兴趣 的 规则 。 不 幸 的 是 ， 当 使 用 
低 支持 度 阅 值 挖 气 或 挖 气 长 模式 时 ， 这 种 情况 特别 严重 。 这 是 关联 规则 挖掘 成 功 应 用 的 主要 
瓶颈 之 一 。 

本 节 首 先 考察 为 何 强 关 联 规则 也 可 能 是 无 趣 的 并 且 可 能 是 误导 (6. 3. 1 节 ); 然后 讨论 
如 何 用 基于 相关 分 析 的 附加 度量 加 强 支 持 度 - 置信 度 框 架 (6. 3.2 节 )。6.3.3 节 介 绍 附 加 
的 模式 评估 度量 。 然 后 ， 对 这 里 讨论 的 所 有 度量 进行 全 面 比较 。 本 章 结 束 时 ， 你 将 明白 哪些 
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模式 评估 度量 对 于 仅 发 现 有 趣 的 规则 最 有 效 。 


6.3.1 强 规则 不 一 定 是 有 趣 的 

规则 是 否 有 趣 可 以 主观 或 客观 地 评估 。 最 终 ， 只 有 用 户 能 够 评判 一 个 给 定 的 规则 是 否 是 
有 趣 的 ,并且 这 种 判断 是 主观 的 ， 可 能 因 用 户 而 异 。 然 而 ， 根 据 数据 “背后 ”的 统计 量 ， 
客观 兴趣 度 度量 可 以 用 来 清除 无 趣 的 规则 ， 而 不 向 用 户 提供 。 

“我 们 如 何 识别 哪些 强 关联 规则 是 真正 有 趣 的 ?” 让 我 们 考查 下 面 的 例子 。 

例 6.7 一 个 误导 的 “ 强 ” 关 联 规则 。 假 设 我 们 对 分 析 涉 及 购买 计算 机 游戏 和 录像 的 
AllElectronics 的 事务 感 兴趣 。 设 game 表示 包含 计算 机 游戏 的 事务 ， 而 video 表示 包含 录像 
的 事务 。 在 所 分 析 的 10 000 个 事务 中 ,数据 显示 6000 个 顾客 事务 包含 计算 机 游戏 ，7500 
个 事务 包含 录像 ， 而 4000 个 事务 同时 包含 计算 机 游戏 和 录像 。 假 设 发 现 关 联 规则 的 数据 
挖掘 程序 在 该 数据 上 运行 ， 使 用 最 小 支持 度 30% ， 最 小 署 信和 度 60% 。 将 发 现下 面 的 关联 
规则 : 

buys( X ,“ computer games” ) =buys( X , “videos” ) 
[ support = 40% , confidence = 66% | (6. 6) 


规则 〈6. 6) 是 强 关联 规则 ， 因 为 它 的 支持 度 为 FOO =40% , tense 4000 = 66% ， 分 


6000 

别 满 足 最 小 支持 度 和 最 小 置信 度 闪 值 。 然 而 ， 规 则 (6.6) 是 误导 ， 因 为 购买 录像 的 概率 是 

75% ， 比 O6% 还 高 。 事 实 上 ， 计 算 机 游戏 和 录像 是 负 相关 的 ， 因 为 买 一 种 实际 上 降低 了 买 

尺 一 种 的 可 能 性 。 不 完全 理解 这 种 现象 ， 容 易 根 据 规则 (6.6) 做 出 不 明智 的 商务 决定 。 E 
例 6. 7 也 表明 规则 AB 的 置信 和 度 有 一 定 的 欺骗 性 。 它 并 不 度量 4 M B 之 间 相 关 和 蕴涵 

的 实际 强度 (或 缺乏 强度 ) 。 因 此 ， 寻 求 支持 度 -置信 度 框 架 的 替代 ， 对 挖 握 有 趣 的 数据 联 

系 可 能 是 有 用 的 。 


6.3.2 ”从 关联 分 析 到 相关 分 析 


正如 我 们 在 上 面 已 经 看 到 的 ， 支 持 度 和 置信 和 度 度量 不 足以 过 滤 掉 无 趣 的 关联 规则 。 为 了 
处 理 这 个 问题 ， 可 以 使 用 相关 性 度量 来 扩充 关联 规则 的 支持 度 - 置信 和 度 框架 。 这 导致 如 下 形 
式 的 相关 规则 (correlation rule) 

A=B| support , confidence , correlation | (6.7) 
也 就 是 说 ， 相 关 规 则 不 仅 用 支持 度 和 置信 度 度 量 ， 而 且 还 用 项 集 4 M RB 之 间 的 相关 性 度量 。 
有 许多 不 同 的 相关 性 度量 可 供 选择 。 本 节 研 究 各 种 相关 性 度量 ， 确 定 哪些 度量 适合 挖 据 大 型 
数据 集 。 

RAE (if) 是 一 种 简单 的 相关 性 度量 ， 定 义 如 下 。 项 集 4 的 出 现 独 立 于 项 集 B 的 出 
BL, 如果 P(AUB) =P(A)P(B); BI, PARI, TE A FB 是 依赖 的 (dependent) 和 
相关 的 (correlated) 。 这 个 定义 容易 推广 到 两 个 以 上 的 项 集 。4 和 如 出 现 之 间 的 提升 度 可 以 
通过 计算 下 式 得 到 





lif(A,B) = BOA (6.8) 
如 果 (6.8) 式 的 值 小 于 1， 则 4 的 出 现 与 B 的 出 现 是 负 相 关 的 ， 意 味 一 个 出 线 可 能 导致 另 
一 个 不 出 现 。 如 果 结 果 值 大 于 1， 则 4 AB 是正 相关 的 ， 意 味 每 一 个 的 出 现 都 蕴涵 另 一 个 的 


出 现 。 如 果 结 果 值 等 于 1， 则 4 AB 是 独立 的 ， 它们 之 间 没 有 相关 性 。 
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(6.8) 式 等 价 于 P(B|A)/P(B) X conf(A>B)/sup(B), ， 也 称 关联 (或 相关 ) 规则 
4 一 B 的 提升 度 。 换 言 之 ， 它 评估 一 个 的 出 现 “ 提 升 ” 另 一 个 出 现 的 程度 。 例 如 ， 如 果 4 对 
应 于 计算 机 游戏 的 销售 ，B 对 应 于 录像 的 销售 ， 则 给 定 当前 行情 ， 游 戏 的 销售 把 录像 销售 的 
可 能 性 增加 或 “提升 ”了 一 个 (6.8) 式 返回 值 的 因子 。 

让 我 们 回 到 例 6.7 的 计算 机 游戏 和 录像 数据 。 

例 6.8 使 用 提升 度 的 相关 分 析 。 为 了 帮助 过 滤 掉 从 例 6. 7 的 数据 得 到 的 形 如 A4=B 的 
误导 “ 强 ” 关 联 ， 需 要 研究 两 个 项 集 4 和 B 如 何 相关 的 。 设 game 表示 例 6.7 中 不 包含 计算 
机 游戏 的 事务 ，zideo 表 示 不 包含 录像 的 事务 。 这 些 事 务 可 以 汇总 在 一 个 相依 表 (contingency 
table) 中 ， 如 表 6.6 所 示 。 

由 该 表 可 以 看 出 ， 购 买 计算 机 游戏 的 概率 P( |game} ) =0. 60， 购 买 录像 的 概率 P| vide- 
o}) =0.75， 而 购买 两 者 的 概率 P( |game，video} ) =0. 40。 根 据 (6.8) st, 规则 (6.6) 的 提 
升 度 为 P( {game, video} )/ (Pl | game} ) x P( {video} )) =0.40/(0.75 x0.60) =0. 89, 由 于 该 
值 小 于 1， 因 此 {game| 和 {video} 的 出 现 之 间 存 在 负 相 关 。 分 子 是 顾客 购买 两 者 的 可 能 性 ， 
而 分 母 是 顾客 单独 购买 两 者 的 可 能 性 。 这 种 负 相关 不 能 被 支持 度 -置信 度 框架 识别 。 = 

研究 的 第 二 种 相关 性 度量 是 X 度量 ， 在 第 3 章 介 绍 过 ( (3.1) 式 )。 为 了 计算 刀 值 ， 
取 相依 表 的 位 置 (AMBI) 的 观测 和 期 望 值 的 平方 差 除 以 期 望 值 ， 并 对 相依 表 的 所 有 位 
置 求 和 。 让 我 们 对 例 6. 8 进行 分 析 。 

例 6.9 使 用 X 进行 相关 分 析 。 为 了 使 用 xX 分 析 计算 相关 性 ， 需 要 相依 表 每 个 位 置 上 
的 观测 值 和 期 望 值 (显示 在 括号 内 ) ， 如 表 6. 7 所 示 。 由 该 表 ， 计算 x 值 如 下 : 


2 (观测 值 - 期 望 值 )” _ (4000 - 4500)? (3500 - 3000)? 
X = 之 FELA = 4500 + 3000 + 











(2000 - 1500)? _ (500 - 1000)? 

1500 1000 
由 于 X 的 值 大 于 1， 并 且 位 置 (game, video) 上 的 观测 值 等 于 4000， 小 于 期 望 值 4500， 因 
此 购买 游戏 与 购买 录像 是 负 相 关 的 。 这 与 例 6. 8 使 用 提升 度 度 量 分 析 得 到 的 结果 一 致 。 面 


= 555.6 














#66 汇总 关于 购买 计算 机 游戏 和 表 6.7 显示 期 望 值 的 相依 表 
录像 事务 的 2 x2 相依 表 5 
game game 
game game > = 
rou video 4000 (4500) 3500 (3000) 7500 
video 4000 3500 7500 — 
> 6000 4000 10 000 È 6000 4000 10 000 


col col 


6.3.3 模式 评估 度量 比较 

上 面 的 讨论 表明 ， 不 使 用 简单 的 支持 度 - 署 信 度 框架 来 评估 模式 ， 使 用 其 他 度量 ， 如 提升 
度 和 X ， 常 常 可 以 揭示 更 多 的 模式 内 在 联系 。 这 些 度量 的 效果 如 何 ? 还 需要 考虑 其 他 选择 吗 ? 

研究 人 员 已 经 研究 了 许多 模式 评估 度量 ， 甚 至 比 挖掘 频繁 模式 可 伸缩 方法 的 深入 研究 还 
早 。 最 近 ， 另 一 些 模式 评估 度量 引起 了 关注 。 本 节 介 绍 4 种 这 样 的 度量 ; AMER. BAKE 
信和 度 、Kulczynski 和 余弦 。 然 后 ， 比 较 它 们 的 有 效 性 ， 并 且 与 提升 度 和 xX 进行 比较 。 

给 定 两 个 项 集 4 ALB, A 和 8B 的 全 置信 和 度 (all_confidence) 定义 为 : 
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_ sup(A U B) = mi | 
all_conf(A,B) = maxisup(A) ,sup( BJ} = in| P(A1 B),P(B\ A)! (6.9) 


其 中 ，maxjlsup (A), sup (B)}| 是 4 和 B 的 最 大 支持 度 。 因 此 ，all_conf (A, B) 又 称 两 
个 与 4 和 有 相关 的 关联 规则 “4 一 8B” 和 “8B=4” 的 最 小 置信 度 。 
给 定 两 个 项 集 4 和 8, A 和 B 的 最 大 置信 和 度 (max_confidence) 定义 为 : 
max_conf(A,B) = maxi P(A! B),P(B| A)} (6. 10) 
max_conf 是 两 个 关联 规则 “4 一 B” 和 “B=->*4” 的 最 大 置信 度 。 
给 定 两 个 项 集 4 和 B, ARB AY Kulczynski (Kule) 度量 定义 为 : 


Kule(A,B) = S(P(AI B) + P(BI A)) (6.11) 


该 度量 是 波兰 数学 家 S. Kulczynski 于 1927 年 提出 的 。 它 可 以 看 做 两 个 置信 度 的 平均 值 。 更 确切 地 
说 , 它 是 两 个 条 件 概率 (给 定 项 集 4， 项 集 B 的 概率 ; 给 定 项 集 B， 项 集 4 的 概率 ) 的 平均 值 。 
最 后 ， 给 定 两 个 项 集 4 和 8B，A 和 8B 的 余弦 度量 定义 为 : 
sine - _PUUB) -sdUB) _ /PATB x POTA 12 
co (A,B) TPA) x P(BY DA) x sup BY P(AI B) x P(BI A) (6.12) 
余弦 度量 可 以 看 做 调和 提升 度 度量 ; 两 个 公式 类 似 ， 不 同 之 处 在 于 余弦 对 4 和 8 的 概率 的 
乘积 取 平方 根 。 然 而 ， 这 是 一 个 重要 区 别 ， 因 为 通过 取 平 方 根 ,余弦 值 仅 受 A4、B 和 A4UB 
的 支持 度 的 影响 ， 而 不 受 事务 总 个 数 的 影响 。 

上 面 介绍 的 4 种 度量 都 具有 如 下 性 质 。 度 量 值 仅 受 4、B 和 4 UB 的 支持 度 的 影响 ， 更 
准确 地 说 ， 仅 受 条 件 概率 P(41 B) WPB A) 的 影响 ， 而 不 受 事务 总 个 数 的 影响 。 另 一 
个 共同 性 质 是 ， 每 个 度量 值 都 遍 取 0 ~ 1， 并 且 值 越 大 ,4 和 8 的 联系 越 紧密 。 

现在 ， 加 上 提升 度 和 X ， 我 们 已 经 介绍 了 6 种 模式 评估 度量 。 你 可 能 会 问 “对 于 评估 所 发 现 
的 模式 联系 ， 哪 个 度量 最 好 ?” 为 了 回答 该 问题 ， 我 们 在 一 些 典 型 的 数据 集 上 考察 它们 的 性 能 。 

$6.10 在 典型 的 数据 集 上 比较 6 种 模式 评估 度量 。 和 牛奶 和 咖啡 两 种 商品 购买 之 间 的 








关系 可 以 通过 把 它们 的 购买 历史 记录 汇总 在 表 6.8 两 个 项 的 2 x2 相依 表 

表 6.8 的 2x2 相依 表 中 来 考察 ， 其 中 像 mc milk walk £ 

这 样 的 表 目 表示 包含 牛奶 和 咖啡 的 事务 个 数 。 coffee 元 元 = 
表 6.9 显示 了 一 组 事务 数据 集 、 它 们 对 afe mē 元 z 

应 的 相依 表 和 6 个 评估 度量 的 值 。 先 考察 前 之 m m 了 


4 个 数据 集 D, ~ D,。 从 该 表 可 以 看 出 , m 和 人 人， 
c 在 数据 集 D, 和 D, 中 是 正 关联 的 ， 在 D 中 是 负 关联 的 ， 而 在 D, 中 是 中 性 的 。 对 于 D 和 
D,, m File 是 正 关联 的 ， 因 为 mc(10000〉 显 著 大 于 me(1000〉 和 和 mc(1000)。 直 观 地 ， 对 于 
购买 牛奶 的 人 m=10 000 +1000 = 11 000) 而 言 ， 他 们 非常 可 能 也 购买 咖啡 (me/m = 10/ 
11 =91% ) ,反之 亦 然 。 


表 6.9 使 用 不 同 数据 集 的 相依 表 比较 6 种 模式 评估 度量 











数据 集 “mc me me mc x RA SEE BABAR Kluc 余弦 
D, 10000 1000 1000 100000 90557 9.26 0.91 0.91 0.91 0.91 
D, 10000 1000 1000 100 0 1 0.91 0.91 0.91 0.91 
D; 100 1000 1000 100000 670 8.44 0. 09 0. 09 0. 09 0. 09 
Dg 1000 1000 1000 100000 24740 25.75 0. 50 0. 50 0. 50 0. 50 
D; 1000 100 10000 100000 8173 9.18 0. 09 0.91 0. 50 0. 29 


D, 1000 10 100000 100 000 965 1.97 0.01 0.99 0. 50 0. 10 
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新 介绍 的 4 个 度量 在 这 两 个 数据 集 上 都 产生 了 度量 值 0.91， 显示 m 和 是 强 正 关联 的 。 
然而 ， 由 于 对 me 敏感 ， 提 升 度 和 X 对 D, M D, 产生 了 显著 不 同 的 度量 值 。 事 实 上 ， 在 许多 
实际 情况 下 ，mc 通 常 都 很 大 并 且 不 稳定 。 例 如 ， 在 购物 复数 据 库 中 ， 事 务 的 总 数 可 能 按 天 
波动 ， 并 且 显 著 超 过 包含 任意 特定 商品 集 的 事务 数 。 因 此 ， 好 的 度量 不 应 该 受 不 包含 感 兴趣 
项 的 事务 影响 ， 如 D, AD, 所 示 ， 否 则 将 会 产生 不 稳定 的 结果 。 

类 似 地 ， 在 D; ，4 个 新 度量 都 正确 地 表明 m 和 < 是 强 负 关联 的 ， 因 为 m 与 c 之 比 等 于 
me} m Zik, BI 100/1100 =9.1% 。 然 而 ， 提 升 度 和 X 都 错误 地 与 此 相悖 : 对 于 D, E 
的 值 都 在 对 应 的 D, AD; 的 值 之 间 。 

对 于 数据 集 D, EEM 都 显示 了 m 和 < 之 间 强 正 关联 ， 而 其 他 度量 都 指示 “中 
性 ”关联 ， 因 为 me 与 me 之 比 等 于 me 与 me 之 比 ， 等 于 1。 这 意味 如 果 一 位 顾客 购买 了 咖啡 
(或 牛奶 ) ， 则 他 也 要 买 牛 奶 (或 咖啡 ) 的 概率 恰 为 50% 。 E 

“为 什么 提升 度 和 XX 识别 上 述 事务 数据 集中 的 模式 关联 关系 的 能 力 这 么 差 ?” 为 了 回答 
这 个 问题 ， 我 们 必须 考虑 霍 事务 。 零 事务 (null-transaction) 是 不 包含 任何 考察 项 集 的 事务 。 
在 我 们 的 例子 中 ，mc 表 示 零 事务 的 个 数 。 提 升 度 和 X 很 难 识别 有 趣 的 模式 关联 关系 ， 因 为 
它们 都 受 mc 的 影响 很 大 。 典 型 地 ， 零 事务 的 个 数 可 能 大 大 超过 个 体 购买 的 个 数 ， 因 为 ， 许 
多 人 都 既 不 买 牛奶 也 不 买 咖啡 。 另 一 方面 ， 其 他 4 个 度量 都 是 有 趣 的 模式 关联 的 很 好 的 指示 
器 ， 因 为 它们 的 定义 消除 了 mc 的 影响 〈 即 它们 不 受 零 事务 个 数 的 影响 ) 。 

上 面 的 讨论 表明 ， 度 量 值 独立 于 零 事 务 的 个 数 是 非常 可 取 的 。 一 种 度量 是 零 不 变 的 
(nul-invariant) ， 如 果 它 的 值 不 受 零 事务 的 影响 。 零 不 变性 是 一 种 度量 大 型 事务 数据 库 中 的 
关联 模式 的 重要 性 质 。 在 上 面 讨论 的 6 种 度量 中 ， 只 有 提升 度 和 X 不 是 零 不 变 度 量 。 

“对 于 指示 有 趣 的 模式 联系 ， 全 置信 度 、 最 大 置信 度 、Kulezynski 和 余弦 哪个 最 好 ?” 

为 了 回答 该 问题 ， 引 进 不 平衡 比 (Imbalance Ratio，IR) ,评估 规则 蕴含 式 中 两 个 项 集 4 
和 B 的 不 平衡 程度 。 它 定义 为 : 

| sup(A) - sup(B) | 
IR(A,B) = spl) + sup(B) (A U B) (6. 13) 
其 中 ， 分 子 是 项 集 4 和 B 的 支持 度 之 差 的 绝对 值 ， 而 分 母 是 包含 项 集 4 或 B 的 事务 数 。 如 
采 A4 和 8 的 两 个 方向 的 蕴含 相同 ， 则 IR(4，B) 为 0; 否则 ， 两 者 之 差 越 大 ， 不 平衡 比 就 越 
大 。 这 个 比率 独立 于 零 事 务 的 个 数 ， 也 独立 于 事务 的 总 数 。 

让 我 们 继续 考察 例 6. 10 HRI HER 

例 6.11 比较 模式 评估 的 零 不 变 度量 。 尽 管 本 节 引 进 的 4 个 度量 都 是 零 不 变 的 ， 但 是 
在 某 些 细微 不 同 的 数据 集 上 ， 它 们 给 出 显著 不 同 的 值 。 考 察 表 6. 9 的 数据 集 D, AD, Hp 
两 个 事件 m All 具有 不 平衡 的 条 件 概率 。 即 me 与 的 比 大 于 0. 9。 这 意味 ， 知 道 c 出 现 将 强 
烈 瞳 示 m 也 出 现 。mc 与 m 的 比 小 于 0.1， 表明 m AAS c 很 可 能 不 出 现 。 全 置信 度 和 余 臻 度 
量 把 两 种 情况 都 看 做 负 关 联 的 ， 而 Kuc 度量 把 两 者 都 视 为 中 性 的 。 最 大 置信 和 度 度量 声称 这 
些 情况 都 是 强 正 关联 的 。 这 些 度量 给 出 了 如 此 不 同 的 结果 ! 

“哪个 度量 直观 地 反映 了 和 牛奶 和 咖啡 购买 之 间 的 真实 联系 ?” 由 于 数据 “平衡 地 ”倾斜 ， 
因此 很 难说 两 个 数据 集 具有 正 的 还 是 负 的 关联 性 。 从 一 个 角度 看 ,在 Ds 中 ， 只 有 me/ (me + 
me) =1000/(1000 + 10 000) =9.09% 的 与 牛奶 相关 的 事务 包含 咖啡 ; 而 在 D。 中 ， 这 个 百 分 
比 为 1000/(1000 + 100 000) =0. 99% ， 两 者 都 指示 牛奶 与 咖啡 之 间 的 负 关 联 。 另 一 方面 ，D， 
中 99.9% (Bll me/(mc+me) =1000/(1000 +100)) 和 Ds 中 9% (Bf 1000/(1000 +10)) 包 
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含 咖 啡 的 事务 也 包含 牛奶 ， 这 表明 牛奶 与 咖啡 之 间 正 关联 。 这 些 推出 了 很 不 相同 的 结论 。 

对 于 这 种 “平衡 的 ”倾斜 ,正如 Kluc 那样 ， 把 它 看 做 是 中 性 的 可 能 更 公平 ， 同 时 用 不 
平衡 比 UR) 指出 它 的 倾斜 型 。 根 据 (6. 13) R, WE D,, AIR(m, c) =0， 一 种 很 好 的 
平衡 情况 ; 对 于 Ds, IR(m, c) =0.89, 一 种 相当 不 平衡 的 情况 ; 对 于 Ds, IR(m, c) = 
0. 99 ， 一 种 很 不 平衡 的 情况 。 因 此 ， 两 个 度量 Kuc #1 IR 一起， 为 所 有 3 个 数据 集 D, ~D 
提供 了 清晰 的 描绘 。 a 

总 之 ， 仅 使 用 支持 度 和 置信 和 度 度量 来 挖掘 关联 可 能 产生 大 量规 则 ， 其 中 大 部 分 规则 用 
户 是 不 感 兴趣 的 。 或 者 ， 我 们 可 以 用 模式 兴趣 度 度 量 来 扩展 支持 度 - 置信 度 框 架 ， 有 助 
于 把 挖掘 聚焦 到 具有 强 模 式 联 系 的 规则 。 附 加 的 度量 显著 地 减少 了 所 产生 规则 的 数量 ， 
并 且 导 致 更 有 意义 规则 的 发 现 。 除 了 本 节 介 绍 的 相关 性 度量 外 ， 文 献 中 还 研究 了 许多 其 
他 兴趣 度量 。 不 幸 的 是 ， 大 部 分 度量 都 不 具有 零 不 变性 。 由 于 大 型 数据 集 常 常 具有 许多 
零 事 务 ， 因 此 在 进行 相关 分 析 选 择 合适 的 兴趣 度量 时 ， 考 虑 零 不 变性 是 重要 的 。 这 里 研 
究 的 4 个 零 不 变 的 度量 ( 即 ， 全 置信 和 度 、 最 大 置信 和 度 、Kulczynski MRR) 中 ， 我 们 推荐 
Kluc 与 不 平衡 比 配合 使 用 。 


6.4 小 结 


。 大 量 数据 中 的 频繁 模式 、 关 联 和 相关 关系 的 发 现在 选择 性 销售 、 决 策 分 析 和 商务 管理 方面 是 有 用 
的 。 一 个 流行 的 应 用 领域 是 购物 篮 分 析 ， 通 过 搜索 经 常 一 起 〈 或 依次 ) 购买 的 商品 的 集合 ， 研 究 
顾客 的 购买 习惯 。 

。 关联 规则 挖 拥 首先 找 出 频繁 项 集 (项 的 集合 ， 如 4 和 B， 满 足 最 小 支持 度 阅 值 ， 或 任务 相关 元 组 的 
百分比 ) ， 然 后 ， 由 它们 产生 形 如 ASB 的 强 关 联 规则 。 这 些 规则 还 满足 最 小 置信 度 阅 值 ( 预 定义 
的 、 在 满足 4 的 条 件 下 满足 B 的 概率 )。 可 以 进一步 分 析 关 联 ， 发 现 项 集 4 和 8B 之 间 具 有 统计 相关 
性 的 相关 规则 。 

。 对 于 频繁 项 集 挖 拥 ， 已 经 开发 了 许多 有 效 的 、 可 伸缩 的 算法 ， 由 它们 可 以 导出 关联 和 相关 规则 。 这 
些 算法 可 以 分 成 三 类 : (1) 类 Apriori 算法 ; (2) 基于 频繁 模式 增长 的 算法 ， 如 FP-growth; (3) 使 
用 垂直 数据 烙 式 的 算法 。 

。 Apriori 算法 是 为 布尔 关联 规则 挖掘 频繁 项 集 的 原创 性 算法 。 它 逐 层 进行 挖掘 ， 利 用 先 验 性 质 ， 频 
繁 项 集 的 所 有 非 空 子 集 也 都 是 频繁 的 。 在 第 上 次 欠 代 (kz>2)， 它 根据 频繁 (k-1) 项 集 形 
成 上 项 集 候选 ， 并 扫描 数据 库 一 次 ， 找 出 完整 的 频繁 上 项 集 的 集合 己 。 使 用 涉及 散 列 和 事务 压缩 技 
术 的 变形 使 得 过 程 更 有 效 。 其 他 变形 包括 划分 数据 (对 每 分 区 挖 扎 ， 然 后 合并 结果 ) 和 抽样 数据 
(对 数据 子 集 挖掘) 。 这 些 变形 可 以 将 数据 扫描 次 数 减少 到 一 两 次 。 

© 频繁 模式 增长 (FP-growth) 是 一 种 不 产生 候选 的 挖掘 频繁 项 集 方法 。 它 构造 一 个 高 度 压缩 的 数据 
结构 (FP 树 ) ， 压 缩 原 来 的 事务 数据 库 。 与 类 Apriori 方法 使 用 产生 - 测试 策略 不 同 ， 它 聚焦 于 频 
KER (E) 增长 ， 避 免 了 高 代价 的 候选 产生 ， 可 获得 更 好 的 效率 。 

。 使 用 垂直 数据 格式 挖 韦 频繁 模 式 (ECLAT) 将 给 定 的 、 用 TI1D - 项 集 形式 的 水 平 数据 格式 事务 数 
据 集 变换 成 项 -TID -集合 形式 的 垂直 数据 格式 。 它 根据 先 验 性 质 和 附加 的 优化 技术 (如 differ) , 
通过 取 TID - 集 的 交 ， 对 变换 后 的 数据 集 进行 挖掘。 

© 并 非 所 有 的 强 关联 规则 都 是 有 趣 的 。 因 此 ， 应 当 用 模式 评估 度量 来 扩展 支持 度 - 置信 度 框 架 ， 促 进 
更 有 趣 的 规则 的 挖掘 ， 以 产生 更 有 意义 的 相关 规则 。 一 种 度量 是 零 不 变 的 ， 如 果 它 的 值 不 受 零 事务 
( 即 不 包含 所 考虑 项 集 的 事务 ) 的 影响 。 在 许多 模式 评估 度量 中 ， 我 们 考察 了 提升 度 、 妇 . Se 
度 、 最 大 置信 度 Kulczynski 和 余弦 ， 并 且说 明 只 有 后 4 种 是 零 不 变 的 。 我 们 建议 把 Kulczynski 度 
量 与 不 平衡 比 一 起 使 用 ， 提 供 项 集 间 的 模式 联系 。 
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6.5 习题 


6. 1 


6. 2 


6.3 


6.4 


6.5 


6.6 


6.7 


6.8 


假设 有 数据 集 D 上 所 有 闭 频 繁 项 集 的 集合 C， 以 及 每 个 闭 频 繁 项 集 的 支持 度 计数 。 给 出 一 个 算法 ， 确 

定 给 定 的 项 集 X 是 否 频繁 ， 如 果 频 繁 的 话 ， 给 出 的 支持 度 。 

ME X KHARE D 上 的 生成 元 ( generator)， 如 果 不 存在 真子 集 YCX 使 得 support (X) = support 

(7)。 生 成 元 了 是 频繁 的 生成 元 ， 如 果 support (X) 满足 最 小 支持 度 阐 值 。 设 9 是 数据 集 D 上 所 有 频 

繁 的 生成 元 的 集合 。 

(a) 仅 使 用 8 和 它们 的 支持 度 计 数 ， 你 能 确定 项 集 4 是 否 频繁 ， 并 且 如 果 4 频繁 ， 确 定 4 的 支持 度 吗 ? 
如 果 能 ， 给 出 你 的 算法 。 否 则 ， 还 需要 什么 信息 ? 假定 有 所 需要 的 信息 ， 你 能 给 出 一 个 算法 吗 ? 

(b》〉 闭 项 集 与 生成 元 有 何 关系 ? 

Apriori 算法 使 用 子 集 支 持 度 性 质 的 先 验 知 识 。 

(a) 证 明 频 繁 项 集 的 所 有 非 空子 集 一 定 也 是 频繁 的 。 

Cb) 证 明 项 集 * 的 任意 非 空子 集 s 的 支持 度 至 少 与 * 的 支持 度 一 样 大 。 

Cc) 给 定 频繁 项 集 ! 和 / 的 子 集 *， 证 明 规则 “*' 一 上 ) ”的 置信 和 度 不 可 能 大 于 “s 一 上 ss)” 的 署 信 度 。 
其 中 ,s' 是 s 的 子 集 。 

(d) Apriori 算法 的 一 种 变形 将 事务 数据 库 刀 中 的 事务 划分 成 上 个 不 重 亚 的 分 区 。 证 明 在 D 中 频繁 的 
项 集 至 少 在 D 的 一 个 分 区 中 是 频繁 的 。 

设 c 是 Apriori 算法 产生 的 CG 中 的 一 个 候选 项 集 。 在 前 枝 步 ， 需 要 检查 多 少 个 长 度 为 (k-1) 的 子 

集 ? 根据 你 的 答案 ,你 能 给 出 一 个 图 6. 4 的 has_infrequent_ subset 过 程 的 改进 版 本 吗 ? 

6. 2. 2 节 介 绍 了 由 频繁 项 集 产生 关联 规则 的 方法 。 提 出 一 个 更 有 效 的 方法 。 解 释 它 为 什么 比 6.2.2 节 

的 方法 更 有 效 。( 提 示 : 考 嵌 将 习题 6.3 (b) 和 6.3 (c) 的 性 质 结合 到 你 的 设计 中 。) 








数据 库 有 5 个 事务 。 设 min_sup =60% , min_conf =80% 。 
TID 购买 的 商品 
T100 IM, O, N, K, E, Y} 
T200 ID, O, N, K, E, Y} 
T300 IM, A, K, El 
T400 IM, U, C, K, Y} 
T500 ic, O, O, K, I, E} 





(a) 分 别 使 用 Apriori 算法 和 FP-growth 算法 找 出 频繁 项 集 。 比 较 两 种 挖掘 过 程 的 有 效 性 。 
(b) 列举 所 有 与 下 面 的 元 规则 匹配 的 强 关联 规则 (给 出 支持 度 * 和 置信 和 度 c) ， 其 中 , X 是 代表 顾客 

HARE, item, 是 表示 项 的 变量 (如 “4”,“B” 等 ) : 

Vx © transaction ,buys(X,item,) A buys(X,item,)=>buys(X,item,) [s,c] 

(实现 项 目 ) 使 用 一 种 你 熟悉 的 程序 设计 语言 ， 如 C+ + 或 Java， 实 现 本 章 介 绍 的 三 种 频繁 项 集 挖掘 
算法 : (1) Apriori [ AS94b]; (2) FP- growth [HPY00] 和 (3) ECLAT [Zak00] 《使 用 垂直 数据 格 
式 挖 据 )。 在 各 种 不 同 的 数据 集 上 比较 每 种 算法 的 性 能 。 写 一 个 报告 ,分 析 在 哪些 情况 下 (如 数据 大 
小 、 数 据 分 布 、 最 小 支持 度 阐 值 设置 和 模式 的 稠密 性 ) ， 一 种 算法 比 其 他 算法 好 ， 并 陈述 理由 。 
数据 库 有 4 个 事务 。 设 min_sup =60% , min_conf = 80% 。 
购买 的 商品 (以 brand-item_category 形式 ) 
| King’ s- Carb, Sunset-Milk, Dairyland-Cheese, best- Bread} 
| Best-Cheese, Dairyland- Milk, Goldenfarm- Apple, tasty- Pie, Wonder-Bread{ 
| Westcoast- Apple, Dairyland-Milk, Wonder-Bread, Tasty-Pie| 
| Wonder- Bread, Sunset-Milk, Dairyland- Cheese} 














01 
02 
01 





(a) 在 item_category PLE (PM, item, 可 以 是 “Milk”)， 对 于 下 面 的 规则 模板 


Vx e transaction ,buys( X ,item,) A buys(¥,item,)—buys( X,item,) [s,c] 
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列 出 最 大 上 的 频繁 项 集 和 包含 最 大 上 的 频繁 上 项 集 的 所 有 强 关 联 规则 (包括 它们 的 支持 度 s 和 


置信 和 度 c)。 
(b) 在 brand-item_category BIE (Pili, item, 可 以 是 “Sunset- Milk”) ， 对 于 下 面 的 规则 模板 


Yx e customer, buys(X,item,) A buys(X,item,) = buys(¥,item, ) 


DIERA k HE k 项 集 (但 不 输出 任何 规则 ) 。 


假定 一 个 大 型 商店 有 一 个 事务 数据 库 ， 分 布 在 4 个 站 点 。 每 个 成 员 数 据 库 中 的 事务 具有 相同 的 格式 
T: lis n ints EP, T, 是 事务 标识 符 , Ti, Oskam) 是 事务 中 购买 的 商品 标识 符 。 提 出 一 
种 有 效 的 算法 ， 控 掘 全 局 关联 规则 。 可 以 给 出 你 算法 的 要 点 。 你 的 算法 不 必 将 所 有 的 数据 都 转移 到 一 
个 站 点 ， 并 且 不 造成 过 度 的 网 络 通信 开销 。 

假定 大 型 事务 数据 库 DB 的 频繁 项 集 已 经 存储 。 讨 论 : 如 果 新 的 事务 集 ADB ( 增 量 地 ) 加 进 ， 在 相 
同 的 最 小 支持 度 阔 值 下 ， 如 何 有 效 地 挖掘 (全 局 ) 关联 规则 ? 

大 部 分 频繁 模式 控 掘 算法 只 考虑 事务 中 的 不 同 项 。 然 而 ， 一 种 商品 在 一 个 购物 篮 中 多 次 出 现 (如 4 
块 蛋糕 ，3 桶 牛奶 ) 的 情况 ， 在 销售 数据 分 析 中 可 能 是 重要 的 。 考 虑 项 的 多 次 出 现 ， 如 何 有 效 地 挖 
HREM? 对 著名 的 算法 ， 如 Apriori 算法 和 FP- growth 算法 ， 提 出 修改 方案 ， 以 适应 这 种 情况 。 
(实现 项 目 ) 已 经 提出 了 许多 进一步 提高 频繁 项 集 挖掘 算法 性 能 的 技术 。 以 基于 FP 树 的 频繁 模式 增长 算 
法 (如 了 FP-growth) 为 例 ， 实 现 如 下 优化 技术 之 一 ， 并 将 实现 的 性 能 与 不 使 用 这 种 优化 的 算法 进行 比较 。 
(a) 6.2.4 节 的 频繁 模式 挖掘 方法 使 用 自 底 向 上 的 投影 技术 〈 即 在 项 的 前 缀 路 径 上 投影 )， 使 用 
FP 树 产 生 条 件 模式 基 。 然 而 ， 也 可 以 开发 一 种 自 顶 向 下 的 投影 技术 ， 即 在 条 件 模式 基 产 生 时 投 
影 到 项 p 的 后 绎 路 径 上 。 设 计 并 实现 自 顶 向 下 的 FP 树 挖掘 方法 ， 并 将 你 方法 的 性 能 与 自 底 向 上 
投影 方法 进行 比较 。 

在 FP 增长 算法 的 设计 中 ， 一律 使 用 结 点 和 指针 。 然 而 ， 当 数据 稀疏 时 ， 这 可 能 浪费 大 量 空间 。 
另 一 种 可 能 的 设计 是 利用 基于 数组 和 指针 的 混合 实现 ， 其 中 当 结 点 不 包含 多 个 子 分 枝 的 分 裂 点 
时 ， 一 个 结 点 可 以 存放 多 个 项 。 开 发 这 种 实现 ， 并 与 原来 的 实现 进行 比较 。 

在 模式 增长 挖 据 期 间 产生 大 量 的 条 件 模式 基 ， 耗 费 大 量 时 间 和 空间 。 一 种 有 趣 的 选择 是 : 将 已 
经 挖掘 项 的 分 枝 右 推 ， 即 将 它们 推 到 FP 树 的 其 余 分 枝 。 这 样 做 的 好 处 是 : 在 挖 握 FP 树 的 其 
余 分 枝 时 ， 需 要 产生 的 条 件 模式 基 较 少 ， 并 且 可 以 利用 更 多 的 共享 。 设 计 并 实现 这 种 方法 ， 并 
研究 它 的 性 能 。 

给 出 一 个 小 例子 表明 强 关联 规则 中 的 项 实际 上 可 能 是 负 相 关 的。 

下 面 的 相依 表 汇 总 了 超市 的 事务 数据 。 其 中 ，hot dogs 表示 包含 热狗 的 事务 ，hot dogs 表 示 不 包含 热 
狗 的 事务 ，hamburgers 表示 包含 汉堡 包 的 事务 ，hamburgers 表 示 不 包含 汉堡 包 的 事务 。 


(b 


~~ 


~ 
a 
~ 












hamburgers 














hamburgers 








之 3000 2000 5000 


(a) 假设 挖掘 出 了 关联 规则 “hot dogs—humburgers” . 24 x2 Be) FFE A 25% ， 最 小 置信 和 度 阐 值 
50% ， 该 关联 规则 是 强 规则 吗 ? 

(b) 根据 给 定 的 数据 ， 买 hot dogs 独立 于 买 humburgers 吗 ? 如 果 不 是 ,两 者 之 间 存 在 何 种 相关 联系 ? 

(c) 在 给 定 的 数据 上 ， 将 全 置信 和 度 、 最 大 置信 和 度 、Kulczynski 和 余弦 的 使 用 与 提升 度 和 相关 度 进行 比较 。 

( 实现 项 目 ) DBLP 数据 集 (http://www. informatik. unitrier. de/ ~ ley/db/) 包括 超过 100 TERRE 

计算 机 科学 会 议和 杂志 上 的 论文 项 。 在 这 些 项 中 ,很 多 作者 都 有 合 著 关系 。 

(a) 提出 一 种 方法 ， 挖 据 密 切 相关 的 ( 即 ， 经 常 一 起 合 写 文章 ) 合 著者 关系 。 

(b) 根据 挖掘 结果 和 本 章 讨论 的 模式 评估 度量 ， 讨 论 哪 种 度量 可 能 比 其 他 度量 更 令 人 信服 地 揭示 紧 
密 合作 模式 。 
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(e) 基于 以 上 研究 ， 开 发 一 种 方法 ， 它 能 粗略 地 预测 导师 和 学 生 关系 ， 以 及 这 种 指导 的 近似 半期 。 


6.6 文献 注释 

关联 规则 挖掘 首先 由 Agrawal, Imielinski 和 Swami [ AIS93b] 提出 。6. 2. 1 节 讨 论 的 频繁 项 集 挖掘 的 Apri- 
ori 算法 由 Agrawal 和 Srikant [AS94b] 提出 。 使 用 类 似 的 剪 枝 方法 的 算法 变形 独立 地 由 Mannila, Toivonen 和 
Verkamo [MTV94] 开发 。 结 合 这 些 工 作 的 联合 出 版 物 稍 后 出 现在 Agrawal, Mannila, Skrikant, Toivonen 和 
Verkamo [AMS*96] 中 。 由 频繁 项 集 产生 关联 规则 的 方法 在 Agrawal 和 Srikant [AS94a] 中 介绍 。 

6.2.3 节 介 绍 的 Apriori 的 变形 包括 如 下 引文 。 使 用 散 列表 提高 关联 规则 控 气 效率 被 Park 、Chen 和 Yu 
[PCY95a] 研究 。 划 分 技术 由 Savasere, Omiecinski 和 Navathe [SON95] 提出 。 抽 样 方法 在 Toivonen 
[Toi96] 中 讨论 。 动 态 项 集 计 数 方法 在 Brin, Motwani, Ullman 和 Tsur [ BMUT97] 中 给 出 。 一 种 增 量 地 更 
新 所 挖掘 的 关联 规则 的 有 效 方法 由 Cheung, Han, Ng 和 Wong [CHNW96] 提出 。 在 Apriori 框架 下 ， 并 行 
和 分 布 关联 规则 挖 据 由 Park, Chen 和 Yu [ PCY95b], Agrawal 和 Shafer [ AS96 ] Cheung, han, Ng 等 
[CHN*96] 研究 。 另 一 种 并 行 关 联 规则 挖掘 方法 使 用 垂直 数据 库 设 计 探 查 项 集聚 类 ， 在 Zaki, Parthasar- 
athy, Ogihara #1 Li [ ZPOL97] 中 提出 。 

已 经 提出 了 一 些 不 同 于 基于 Apriori 方法 的 、 可 伸缩 的 频繁 项 集 挖 掘 方法 。FP-growth 是 一 种 挖 气 频 繁 模 
式 而 不 产生 候选 的 模式 增长 方法 ,由 Han, Pie 和 Yin [HPY00] 提出 ( 见 6.2.4 节 )。 一 种 频繁 模式 的 超 
级 结构 挖掘 方法 称 为 H-Mine， 由 Pei, Han, Lu 等 [PHL*01] 提出 。 一 种 集成 FP 树 自 顶 向 下 和 自 底 向 上 
遍历 的 方法 ， 由 Liu, Pan, Wang 和 Han [LPWH02] 提出 。 一 种 旨 在 实现 有 效 的 模式 增长 挖掘 的 前 级 树 结 
构 的 基于 数组 的 实现 由 Grahne 和 Zhu [GZ03b] 提出 。Eclat 是 一 种 通过 探查 垂直 数据 格式 挖掘 频繁 项 集 的 
方法 ， 由 Zaki [Zak00] 提出 。 频 繁 项 集 的 深度 优先 产生 由 Agarwal, Aggarwal 和 Prasad [AAP01] 提出 。 一 
种 关联 挖掘 与 关系 数据 库 系统 的 集成 被 Sarawagi, Thomas 和 Agrawal [STA98] 研究 。 

闭 频 繁 项 集 的 控 气 由 Pasquier、Bastile Taouil 和 Lakhal [ PBTI99] 提出 ， 其 中 给 出 了 一 种 称 为 A-Close 
的 基于 Apriori 的 算法 用 于 这 种 项 集 的 挖掘。CLOSET 是 一 种 基于 频繁 模式 增长 的 、 有 效 的 闭 频繁 项 集 控 掘 
算法 ， 由 Pei, Han 和 Mao [PHM00] 提出 。Zaki 和 Hsiao [ZHO2] 提出 的 CHARM 开发 了 一 种 称 为 dier 
的 紧凑 的 垂直 TID 表 结构 ， 只 记录 候选 模式 的 TID 表 与 它 前 级 模式 的 差 。CHARM 还 使 用 了 一 种 快速 的 、 
基于 散 列 方法 ， 前 去 非 闭 模式 。Wang、Han 和 Pei [ WHP03] 的 CLOSET + 集成 了 以 前 提出 的 有 效 策略 和 新 
开发 的 如 混合 树 投影 和 项 跳 过 的 技术 。AFOPT 是 一 种 探索 在 挖 握 过 程 中 FP 树 上 的 右 推 操作 的 方法 ， 由 
Liu, Lu, Lou 和 Yu [LLLY03] 提出 。Grahne 和 Zhu [GZ03b] 提出 一 种 称 为 FPClose 的 算法 ， 把 基于 前 缀 
树 的 算法 与 数组 表示 和 集 成， 使 用 模式 增长 方法 挖掘 闭 项 集 。Pan 、Cong、Tung 等 [PCT*03] 提出 了 CAR- 
PENTER， 一 种 在 长 的 生物 数据 集中 发 现 闭 模式 的 方法 ， 它 集成 了 垂直 数据 格式 和 模式 增长 方法 的 优点 。 
挖掘 极 大 模式 首先 由 Bayardo [ Bay98] 研究 ， 文 中 提出 了 MaxMiner， 一 种 基于 Apriori H, ZEW., SER 
先 的 搜索 方法 ， 通 过 超 集 频繁 性 剪 枝 和 子 集 非 频繁 性 前 枝 压缩 搜索 空间 ， 挖 掘 极 大 项 集 (max-itemset) 。 另 
一 种 有 效 方法 MAFIA 由 Burdick, Calimlim 和 Gehrke [BCGO1] 开发 ， 使 用 垂直 位 图 压缩 TID 3, 从 而 提高 
计数 的 有 效 性 。 频 繁 项 集 控 掘 实现 (Frequent Itemset Mining Implementation, FIMI) 研讨 会 致力 于 频繁 项 集 
挖掘 的 实现 方法 ， 见 Goethals 和 Zaki 的 报告 [GZ03a] 。 

挖 握 有 趣 的 关联 规则 问题 已 经 被 许多 研究 人 员 研 究 。 数 据 挖掘 中 规则 的 统计 独立 性 由 Piatetski_Shapiro 
[PS91] 研究 。 强 关联 规则 的 兴趣 度 问 题 由 Chen, Han 和 Yu [ CHY96 ] Brin, Motwani 和 Silverstein 
[ BMS97] Aggarwal 和 Yu [AY99] 讨论 ， 其 中 涵盖 了 许多 兴趣 度 度量 ， 包 括 提升 度 。 推 广 关联 到 相关 的 有 
效 方法 在 Brin, Motwani 和 Silverstein [BMS97] 中 给 出 。 评 佑 关联 规则 兴趣 度 的 支持 度 - 置信 度 框 架 的 其 他 
替代 方法 在 Brin, Motwani, Ullman 和 Tsur [ BMUT97], LAR Ahmed, EI- Makky 和 Taha [ AEMTOO] 中 提出 。 

.挖掘 项 集 之 间 的 强 梯度 关系 的 方法 由 Imielinski、Khachiyan 和 Abdulghani [IKA02] 提出 。Silverstein , 
Brin, Motwani 和 Ullman [SBMU98] 研究 了 挖掘 事务 数据 库 因 果 关 系 结构 的 问题 。Hilderman 和 Hamilton 
L HHO1] 对 不 同 兴趣 度 度量 进行 了 一 些 比较 研究 。 零 事务 不 变性 概念 、 兴 趣 度 度量 的 比较 分 析 ， 由 Tan, 
Kumar 和 Srivastava 【TKS02 ] 提出 。 使 用 全 置信 度 作为 相关 性 度量 产生 有 趣 的 关联 规则 由 Omiecinski 
[Omi03] 以 及 Lee、Kim、Cai 和 Han [LKCHO3] 研究 。Wu、Chen 和 Han [WCH10] 为 关联 模式 提出 了 
Kulezynski 度量 ， 并 对 一 组 模式 评估 度量 进行 了 对 比分 析 。 
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高 级 模式 挖掘 


由 于 大 量 的 研究 、 问 题 的 多 方面 扩展 和 广泛 的 应 用 研究 ， 频 繁 模式 挖掘 已 经 远 远 超 越 了 
事务 数据 。 本 章 ， 我 们 将 学 习 高 级 模式 的 挖掘 方法 。 我 们 从 给 出 模式 挖掘 的 一 般 路 线 图 开 
R, 介绍 挖掘 各 种 类 型 的 模式 ， 讨 论 模 式 挖 据 的 延伸 应 用 。 我 们 全 面 深入 地 介绍 挖掘 多 种 类 
型 模式 的 方法 ， 包 括 : 多 层 模式 、 多 维 模式 、 连 续 数据 中 的 模式 、 稀 有 模式 、 负 模式 、 受 约 
束 的 频繁 模式 、 高 维 数据 中 的 频繁 模式 、 巨 型 模式 、 压 缩 和 近似 模式 。 其 他 模式 挖掘 主题 ， 
包括 挖掘 序列 模式 和 结构 模式 ， 从 时 空 数据 、 多 媒体 数据 和 流 数据 挖掘 模式 ， 是 更 高 级 的 课 
题 ， 超 出 了 本 书 范围 。 注 意 ， 模 式 挖掘 是 一 个 比 频繁 模式 挖 气 更 一 般 的 术语 ， 因 为 前 者 还 涵 
盖 了 稀有 模式 和 人 负 模 式 。 然 而 ， 在 没有 歧义 时 ， 两 个 术语 可 以 互 换 地 使 用 。 


7.1 模式 挖 据 ， 一 个 路 线 图 

第 6 章 以 购物 篮 分 析 为 例 ， 介 绍 了 频繁 模式 挖掘 的 基本 概念 、 技 术 和 应 用 。 许 多 其 他 类 
型 的 数据 、 用 户 请 求 和 应 用 导致 大 量 的、 形形色色 的 挖掘 模式 、 关 联 和 相关 关系 的 方法 的 开 
发 。 考 虑 到 该 领域 的 丰富 文献 ， 重 要 的 是 给 出 一 个 清晰 的 路 线 图 ， 帮 助 读 者 获得 该 领域 的 有 
条 理 的 描述 ， 为 模式 控 气 应 用 选择 最 佳 方法 。 

图 7. 1 列举 了 模式 挖掘 研究 的 一 般 路 线 图 。 大 部 分 研究 都 主要 关注 模式 挖掘 的 三 个 方 
面 : 所 挖掘 的 模式 类 型 、 挖 掘 方法 和 应 用 。 然 而 ， 一 些 研究 综合 了 多 个 方面 ， 例 如 ， 不 同 的 
应 用 可 能 需要 挖掘 不 同 的 模式 ， 这 就 自然 地 导致 新 的 挖掘 方法 的 开发 。 

基于 模式 的 多 样 性 ， 模 式 挖掘 可 以 使 用 如 下 标准 进行 分 类 : 

。 BAGH: 正如 第 6 章 的 讨论 ， 频 繁 模式 可 能 有 多 种 形式 ， 包 括 简单 的 频繁 模式 、 

闭 模 式 和 极 大 模式 。 回 顾 一 下 ， 频 繁 模式 是 满足 最 小 支持 度 阔 值 的 模式 (或 项 的 集 
合 )。 模 式 p 是 一 个 闭 模 式 ， 如 果 不 存在 与 p 具有 相同 支持 度 的 超 模 式 p'。 模 式 p 是 
一 个 极 大 模式 ， 如 果 不 存在 p 的 频繁 超 模 式 。 频 繁 模式 也 可 以 映射 到 关联 规则 或 基 
于 兴趣 度 的 其 他 类 型 的 规则 。 有 时 ， 我 们 还 可 能 对 不 频繁 模式 或 稀有 模式 (很 少 出 
现 但 非常 重要 的 模式 ) MARR (揭示 项 之 间 的 负 相 关 的 模式 ) 感 兴趣 。 

。 基于 模式 所 涉及 的 抽象 层 : 模式 或 关联 规则 可 能 具有 处 于 高 、 低 ， 或 多 个 抽象 层 的 

项 。 例 如 ， 假 设 控 气 的 关联 规则 集 包含 如 下 规则 : 
buys( X ,“ computer” ) =buys( X , “printer” ) (7.1) 





buys(X,“laptop_computer” )=buys( X ,“color_laser_printer” ) (7.2) 

其 中 下 是 变量 ， 代 表 顾 客 。 在 规则 (7.1) 和 规则 (7.2) 中 ， 购 买 的 商品 涉及 不 同 的 抽 

象 层 ( 例 如 ,，“computer” 处 于 比 “laptop_computer” 更 高 的 抽象 层 ，“color_laser printer” 

处 于 比 “printer” 低 的 层 抽象 )。 我 们 称 所 挖掘 的 规则 和 集 由 多 层 关联 规则 组 成 。 反 之 ， 如 

果 在 给 定 的 规则 集中 ， 规 则 不 涉及 不 同 抽象 层 的 项 或 属性 ， 则 该 集合 包含 单 层 关联 规则 。 

。 基于 规则 或 模式 所 涉及 的 维 数 : 如 果 关 联 规 则 或 模式 中 的 项 或 属性 只 涉及 一 个 维 ， 

则 它 是 单 维 关联 规则 /模式 。 例 如 ， 规 则 (7.1) 和 规则 (7.2) 都 是 单 维 关联 规则 ， 
因为 它们 都 只 涉及 一 个 维 buys® 。 


O ”按照 多 维 数据 库 使 用 的 术语 ， 我 们 把 规则 中 的 每 个 不 同 谓词 称 做 维 。 
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n 频繁 模式 


= 关联 规则 
基本 模式 n 闭 / 极 大 模式 
a 生成 元 
a 多 层 一致、 变化 或 基于 项 集 的 支持 度 ) 
模式 和 规则 多 层 和 a 多 维 模式 (包括 高 维 模式 ) 
的 类 型 多 维 模式 和 连续 数据 (基于 离散 化 或 基于 统计 ) 












a 多 候选 产生 (Apriori、 划 分 、 抽样 、…) 
m 模式 增长 (FP-erowth、HMine、FPMax、Cilose+、…) 
m 垂直 格式 (Eclat, CHARM, =) 








模 
x = SE ERK SER 
趣 a 基于 约束 的 挖 所 
ia PITS emae 相关 规则 
i = 异常 规则 
分 布 /并 行 挖 所 
分 布 、 并 行 和 增 量 的 a 增 量 挖掘 
m 流 模式 
mn 序列 和 时 间 序 列 模式 
ee SZA CAM, DED Mt 
a 空间 【〈 H, P v) 
数据 类 型 图像、 视频 和 多 媒体 模式 
idi a 基于 模式 的 分 类 
n 基于 模式 的 聚 类 
应 用 a 基于 模式 的 语义 注释 


a 协同 过 滤 
保护 隐私 





图 7. 1 模式 挖掘 研 究 的 一 般 路 线 图 


如 果 规 则 /模式 涉及 两 个 或 多 个 维 ， 如 涉及 维 age. income 和 buys ， 则 它 是 多 维 关 联 规 
则 。 下 面 的 规则 是 一 个 多 维 关 联 规则 的 例子 : 
age(X,“20---29”) 人 income(X ,“52K---58K” ) =>buys( X , “iPad” ) (7.3) 

。 基于 规则 或 模式 中 所 处 理 的 值 类 型 ， 如 果 规 则 考虑 的 关联 是 项 是 否 出 现 ， 则 它 是 布 
尔 关联 规则 。 例 如 ， 规 则 (7.1) 和 规则 (7.2) 都 是 由 购物 篮 分 析 得 到 的 布尔 关联 
规则 。 

如 果 规 则 描述 的 是 量化 的 项 或 属性 之 间 的 关联 ， 则 它 是 量化 关联 规则 (quanti- 
tative association rule) 。 在 这 种 规则 中 ， 项 或 属性 的 量化 值 被 划分 为 区 间 。 上 面 的 规 
则 (7.3) 也 可 以 看 做 是 量化 关联 规则 ， 其 中 量化 属性 age 和 income 已 经 离散 化 。 

。 基于 挖 据 选 择 性 模式 的 约束 或 标准 : 被 发 现 的 模式 或 规则 可 以 是 基于 约束 的 〈 即 ， 
满足 用 户 指定 的 约束 ) 、 近 似 的 、 压 缩 的 、 近 似 匹 配 的 〈 即 ， 与 接近 或 几乎 匹配 的 
项 集 的 支持 度 计 数 相 匹配 ) top-k 〈 即 用 户 指定 的 磊 值 的 大 最 频繁 项 集 ) 、 感 知 宛 余 
的 top-k〈 即 相似 的 或 排除 元 余 模式 的 top-k 模式 ) 等。 281 
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另外 ， 模 式 挖 掘 也 可 以 根据 数据 类 型 和 所 涉及 的 应 用 进行 分 类 ， 使 用 以 下 标准 : 

。 基于 所 挖掘 的 数据 类 型 和 特征 : 给 定 关系 数据 和 数据 仓库 数据 ， 大 部 分 人 对 项 集 感 
兴趣 。 因 此 ， 在 这 种 情况 下 ， 频 繁 模式 挖 所 本质 上 是 频繁 项 集 挖掘 ， 即 挖掘 频繁 项 
集 的 集合 。 然 而 ， 在 许多 其 他 应 用 中 ， 模 式 可 能 涉及 序列 和 结构 。 例 如 ， 通 过 研究 
频繁 购买 商品 的 订单 ， 我 们 可 能 发 现 顾客 往往 可 能 先 购 买 PC， 接 下 来 购买 数码 相 
机 ， 然 后 购买 内 存 卡 。 这 导致 序列 模式 ， 即 订购 事件 序列 中 的 频繁 子 序列 (常常 被 
某 些 其 他 事件 隔 开 ) 。 

我 们 也 可 以 挖掘 结构 模式 ， 即 结构 数据 集中 的 频繁 子 结构 。 注 意 ， 结 构 是 一 个 更 一 般 的 
概念 ， 它 涵盖 不 同类 型 的 结构 形式 ， 如 有 向 图 、 无 向 图 、 格 、 树 、 序 列 、 集 合 、 单 个 项 或 这 
些 结构 的 组 合 。 单 个 项 是 最 简单 的 结构 形式 。 一 般 模式 的 每 个 元 素 可 以 包含 子 序列 、 子 树 、 
子 图 等 ， 并 且 这 样 的 包含 关系 可 以 递归 地 定义 。 因 此 ， 结 构 模 式 的 挖掘 可 以 看 做 频繁 模式 控 
据 的 最 一 般 形式 。 

。 基于 应 用 领域 的 特定 语义 : 数据 和 应 用 都 可 能 多 种 多 样 ， 因 此 所 挖掘 的 模式 可 能 因 

其 特定 领域 的 语义 而 差别 很 大 。 各 种 类 型 的 应 用 数据 包括 空间 数据 、 时 间 数 据 、 时 
间 空 间 数据 、 多 媒体 数据 〈 人 例如， 图像、 音频 和 视频 数据 ) 、 文 本 数据 、 时 间 序 列 
数据 、DNA 和 生物 学 序列 、 软 件 程序 、 化 合 物 结构 、Web 结构 、 传 感 器 网 络 、 社 交 
与 信息 网 络 、 生 物 网 络 、 数 据 流 等 。 这 种 多 样 性 导致 大 量 不 同 的 模式 挖掘 方法 。 

。 基于 数据 分 析 的 使 用 方法 : 频繁 模式 挖掘 常常 充当 中 间 步 又 ， 改 善 对 数据 的 理解 并 
进行 作用 更 大 的 数据 分 析 。 例 如 ， 它 可 以 作为 分 类 的 特征 提取 步 又 使 用 ， 这 称 为 基 
于 模式 的 分 类 。 类 似 地 ， 基 于 模式 的 聚 类 也 显示 了 其 在 聚 类 高 维 数据 方面 的 优势 。 
为 了 改善 对 数据 的 理解 ， 模 式 可 以 用 于 语义 注释 或 语 境 分 析 。 模 式 分 析 也 可 以 用 在 
推荐 系统 中 ， 基 于 类 似 用 户 的 模式 ， 向 用 户 推荐 他 可 能 感 兴趣 的 信息 项 〈 如 书 、 电 
影 、Web 页 面 ) 。 不 同 的 分 析 任 务 也 可 能 需要 挖掘 不 同 的 模式 类 型 。 

在 以 下 儿 节 ， 我 们 将 介绍 模式 挖掘 的 高 级 方法 和 扩展 ， 以 及 它们 的 应 用 。7. 2 节 讨 论 控 
掘 多 层 模式 、 多 维 模式 、 具 有 连续 属性 的 模式 和 规则 、 稀 有 模式 和 负 模 式 。 基 于 约束 的 模式 
挖掘 在 7. 3 节 研 究 。7. 4 节 解 释 如 何 挖掘 高 维和 巨型 模式 。 压 缩 的 和 近似 的 模式 挖掘 在 7.5 
节 详 细 讨论 。7. 6 节 讨 论 模式 挖掘 的 探索 与 应 用 。 关 于 控 据 序列 模式 和 结构 模式 ， 以 及 在 复 
杂 的 和 形形色色 数据 类 型 上 的 模式 挖掘 的 高 级 课题 在 第 13 章 简略 介绍 。 


7.2 多 层 、 多 维 空间 中 的 模式 挖掘 

本 节 关 注 在 多 层 、 多 维 空间 中 的 挖掘 方 法 。 尤 其 是 ， 我 们 将 学 习 挖掘 多 层 关联 规则 
(7.2. 1 节 ) 、 多 维 关联 规则 (7.2.2 节 )、 量 化 关联 规则 (7.2.3 节 ) 、 稀 有 模式 和 人 负 模式 
(7.2.4 节 )。 多 层 关联 涉及 多 个 抽象 层 的 概念 。 多 维 关联 涉及 多 个 维 或 谓词 〈 例 如 ， 涉 及 顾 
客 购买 和 年 龄 的 规则 ) 。 量 化 关联 涉及 其 值 之 间 有 序 的 数值 属性 ( 例如， 年龄 )。 稀 有 模式 
是 这 样 的 模式 ， 尽 管 它们 稀有 的 项 组 合 ， 但 很 有 趣 。 负 模式 显示 项 之 间 的 负 关 联 。 


7.2.1 挖 据 多 层 关联 规则 

对 于 许多 应 用 而 言 ， 在 较 高 的 抽象 层 发 现 的 强 关联 规则 ， 尽 管 具有 很 高 的 支持 度 ， 但 可 
能 是 常识 性 知识 。 我 们 可 能 希望 下 钴 ， 在 更 细节 的 层次 发 现 新 颖 的 模式 。 另 一 方面 ， 在 较 低 
或 原始 抽象 层 ， 可 能 有 太 多 的 零散 模式 ， 其 中 一 些 只 不 过 是 较 高 层 模式 的 平凡 特 化 。 因 此 ， 
人 们 关注 如 何 开发 在 多 个 抽象 层 ， 以 足够 的 灵活 性 挖掘 模式 ， 并 易于 在 不 同 的 抽象 空间 转换 
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的 有 效 方法 。 

例 7.1 挖掘 多 层 关 联 规则 。 假 设 给 定 表 7. 1 中 事务 数据 的 任务 相关 数据 集 ， 它 是 Al- 
lElectronics 商店 的 销售 数据 ， 对 每 个 事务 显示 了 购买 的 商品 。 商 品 的 概念 分 层 显示 在 图 7.2 
中 。 概 念 分 层 定义 了 由 低层 概念 集 到 高 层 、 更 一 般 的 概念 集 的 映射 序列 。 可 以 通过 把 数据 中 
的 低层 概念 用 概念 分 层 中 对 应 的 高 层 概念 (或 祖先 ) 替换 ， 对 数据 进行 泛 化 。 


表 7. 1 任务 相关 的 数据 ，D 





TID 购买 的 商品 

T100 Apple!7" MacBook Pro Notebook, HP Photosmart Pro b9180 

T200 Microsoft Office Professional 2010, Microsoft Wireless Optical Mouse 5000 
T300 Logitech VX Nano Cordless Laser Mouse, Fellowes GEL Wrist Rest 

T400 Dell Studio XPS 16 Notebook, Canon PowerShot SD1400 

T500 Lenovo ThinkPad X200 Tablet PC, Symantec Norton Antivirus 2010 
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图 7.2 AllElectronics 计算 机 商品 的 概念 分 层 


7.2 的 概念 分 层 有 5 层 ， 分 别称 为 第 0 ~4 层 ， 根 结 点 al 为 第 0 层 (最 一 般 的 抽象 
层 )。 这 里 , 第 1 层 包括 computer, software, printer and camera 和 computer accessory; 第 2 层 
包括 laptop computer , desktop computer , office software, antivirus software 等 ; 而 第 3 层 包 括 Dell [283 
desktop computer, +++, Microsoft office sofware 等 。 第 4 层 是 该 分 层 结构 最 具体 的 抽象 层 ， 由 原 
始 数据 值 组 成 。 

标 称 属性 的 概念 分 层 通 常 获 涵 在 数据 库 模式 中 ， 可 以 使 用 第 3 章 介 绍 的 那些 方法 自动 地 
产生 。 对 于 我 们 的 例子 ， 图 7. 2 的 概念 分 层 由 产品 说 明 数 据 产 生 。 数 值 属 性 的 概念 分 层 可 以 
使 用 离散 化 技术 产生 ， 其 中 一 些 方法 已 经 在 第 3 章 中 介绍 过 。 另 外 ， 概 念 分 层 也 可 以 由 熟悉 
数据 的 用 户 指定 。 对 于 我 们 的 例子 ， 可 以 由 商店 经 理 指定 。 

表 7. 1 中 的 商品 在 图 7. 2 的 概念 分 层 的 最 底层 。 在 这 种 原始 层 数 据 中 很 难 发 现 有 趣 的 购买 
模式 。 例 如 ， 如 果 “Dell Studio XPS 16 Notebook” 和 “Logitech VX Nano Cordless Laser Mouse” 
每 个 都 在 很 少 一 部 分 事务 中 出 现 ， 则 可 能 很 难 找到 涉及 这 些 特定 商品 的 强 关 联 规则 。 少 数 人 可 
能 同时 购买 它们 ， 使 得 该 商品 集 不 太 可 能 满足 最 小 支持 度 。 然 而 ,我们 预料 ， 在 这 些 商 品 的 泛 
化 抽象 之 间 ， 如 在 “Dell Notebook” 和 “Cordless Mouse” 之 间 ， 可 望 更 容易 发 现 强 关联 。 m 

在 多 个 抽象 层 的 数据 上 挖掘 产生 的 关联 规则 称 为 多 层 关联 规则 。 在 支持 度 - 置信 度 框架 24 
下 ,使 用 概念 分 层 可 以 有 效 地 挖 据 多 层 关联 规则 。 一 般 而 言 ， 可 以 采用 自 顶 向 下 策略 ， 由 概 
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念 层 1 开始 ， 向 下 到 较 低 的 、 更 特定 的 概念 层 ， 在 每 个 概念 层 累积 计数 ， 计 算 频 繁 项 集 ， 直 
到 不 能 再 找到 频繁 项 集 。 对 于 每 一 层 ， 可 以 使 用 发 现 频繁 项 集 的 任何 算法 ， 如 Apriori 或 它 
的 变形 。 

这 种 方法 的 许多 变形 将 在 下 面 介绍 ， 其 中 每 种 变形 都 涉及 以 稍微 不 同 的 方式 使 用 支持 度 
阔 值 。 这 些 变形 用 图 7. 3 和 图 7.4 解释 ， 其 中 结 点 指出 项 或 项 集 已 被 考察 过 ， 而 粗 边 框 的 矩 
形 指出 已 考察 过 的 项 或 项 集 是 频繁 的 。 



















层 1 
min_sup=5% computer[support=10%] 
层 2 
min_sup=5% 
laptop computer[support=6%] desktop computer[support=4%] 
图 7.3 县 有 一 致 支持 度 的 多 层 控 所 
Bl 
min_sup=5% computer[support=10%] 
层 2 
min_sup=3% 





laptop computer[support=6%] 


desktop computer[support=4%] 


图 7.4 具有 递减 支持 度 的 多 层 挖 据 


。 对 于 所 有 层 使 用 一 致 的 最 小 支持 度 〈 称 为 一 致 支持 度 ) : 在 每 个 抽象 层 上 挖掘 时 ， 
使 用 相同 的 最 小 支持 度 益 值 。 例 如 ， 在 图 7.3 中 ， 都 使 用 最 小 支持 度 阐 值 5% ( 例 
如 ， 对 于 由 “computer” 到 “laptop computer”) 。 发 现 “computer” 和 “ laptop comput- 
er” 都 是 频繁 的 ， 但 “desktop computer” 不 是 。 

使 用 一 致 的 最 小 支持 度 阐 值 时 ， 搜 索 过 程 被 简化 。 该 方法 也 很 简单 ， 因 为 用 户 只 需要 指 
定 一 个 最 小 支持 度 阐 值 。 根 据 祖先 是 其 后 代 超 集 的 知识 ， 可 以 采用 类 似 于 Apriori 的 优化 策 
K: 搜索 时 避免 考察 这 样 的 项 集 ， 它 包含 其 祖先 不 满足 最 小 支持 度 的 项 。 

然而 ， 一 致 支持 度 方 法 有 一 些 缺 点 。 较 低 抽象 层 的 项 不 大 可 能 像 较 高 抽象 层 的 项 那样 
频繁 出 现 。 如 果 最 小 支持 度 冰 值 设置 太 高 ， 则 可 能 错失 在 较 低 抽象 层 中 出 现 的 有 意义 的 
关联 。 如 果 阀 值 设置 太 低 ， 则 可 能 会 产生 出 现在 较 高 抽象 层 的 无 趣 的 关联 。 这 导致 下 面 
的 方法 。 

。 在 较 低层 使 用 递减 的 最 小 支持 度 ( 称 为 递减 支持 度 ) ， 每 个 抽象 层 有 它 自己 的 最 小 

支持 度 阐 值 。 抽 象 层 越 低 ， 对 应 的 阀 值 越 小 。 例 如 ， 在 图 7.4 H, 层 1 和 层 2 的 最 
小 支持 度 阐 值 分别 为 5% 和 3% . AFE, “computer”, “ laptop computer” I “desktop 
computer” 都 被 看 做 频繁 的 。 

。 使 用 基于 项 或 基于 分 组 的 最 小 支持 度 ( 称 为 基于 分 组 的 支持 度 ): 由 于 用 户 或 专家 

通常 清楚 哪些 组 比 其 他 组 更 重要 ， 在 挖掘 多 层 规则 时 ， 有 时 更 希望 建立 用 户 指定 的 
基于 项 或 基于 分 组 的 最 小 支持 度 阐 值 。 例 如 ， 用 户 可 以 根据 产品 价格 或 者 根据 感 兴 
趣 的 商品 设置 最 小 支持 度 阐 值 。 如 对 “价格 超过 1000 美元 的 照相 机 ”或 “平板 电 
脑 ” 设 置 特别 低 的 支持 度 阐 值 ， 以 便 特别 关注 包含 这 类 商品 的 关联 模式 。 
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为 了 从 具有 不 同 支 持 度 阔 值 的 组 中 挖掘 混合 项 模式 ， 通 常 在 控 气 中 取 所 有 组 的 最 低 支持 
度 阔 值 。 这 将 避免 过 滤 掉 有 价值 的 模式 ， 该 模式 包含 来 自 具 有 最 低 支 持 度 阔 值 组 的 项 。 同 
时 ， 每 组 的 最 小 支持 度 阔 值 应 该 保持 ， 以 避免 从 每 个 组 产生 无 趣 的 项 集 。 在 项 集 控 据 后 ， 可 
以 使 用 其 他 兴趣 度 度量 ， 提 取 真 正 有 趣 的 规则 。 

注意 ， 在 递减 支持 度 和 基于 分 组 的 支持 度 挖掘 时 ， 先 验 性 质 ( Apriori property) 可 能 并 
非 对 所 有 项 都 成 立 。 然 而 ， 基 于 该 性 质 的 扩充 ， 仍 然 可 以 开发 有 效 的 方法 。 细 节 留 给 感 兴趣 
的 读者 作为 习题 。 

挖掘 多 层 关联 规则 的 一 个 严重 的 副作用 是 ， 由 于 项 之 间 的 “祖先 ” 关 系 ， 可 能 产生 一 
些 多 个 抽象 层 上 的 元 余 规则 。 例 如 ， 考 虑 下 面 的 规则 

buys(X, “laptop computer”) =buys(X, “HP printer” ) 


[support = 8%, confidence = 70% | (7.4) 
buys( X, “Dell laptop computer” )=>buys( X, “HP printer” ) 
[support = 2%, confidence = 72% | (7.5) 


其 中 ， 根 据 图 7. 2 的 概念 分 层 , “laptop computer” $ “Dell laptop computer” 的 祖先 ， 而 工 是 
变量 ， 代 表 在 AlElectronics 购买 商品 的 顾客 。 

“如 果 控 据 出 规则 (7.4) 和 规则 (7.5)， 那 么 后 一 个 规则 是 有 用 的 吗 ? 它 真 的 提供 新 
的 信息 吗 ?” 如 果 后 一 个 具有 较 小 一 般 性 的 规则 不 提供 新 的 信息 ， 则 应 当 删 除 它 。 让 我 们 看 
看 如 何 来 确定 。 规 则 RI 是 规则 R2 的 祖先 ， 如 果 RI 能 够 通过 将 到 中 的 项 用 它 在 概念 分 层 
中 的 祖先 替换 得 到 。 例 如 ， 规 则 (7.4) 是 规则 (7.5) 的 祖先 ， 因 为 “laptop computer” Fe 
“Dell laptop computer” 的 祖先 。 根 据 这 个 定义 ,一 个 规则 被 认为 是 元 余 的 ， 如 果 根 据 规则 的 
祖先 ， 它 的 支持 度 和 置信 度 都 接近 于 “期 望 ” 值 。 

例 7.2 检查 多 层 关联 规则 的 宛 余 性 。 假 设 规 则 (7.4) 具有 70% 的 置信 和 度 和 8% 的 支 
持 度 ， 并 且 大 约 四 分 之 一 的 “laptop computer” 销 售 是 “Dell laptop computer”。 我 们 可 以 期 望 
规则 (7.5) 具有 大 约 70% 的 置信 度 (由 于 所 有 的 “Dell laptop.computer” 也 都 是 “laptop 


computer” 样 本 ) 和 2% ( 即 ，8% xt) 的 支持 度 。 如 果 确 实 是 这 种 情况 ， 则 规则 (7.5) 
不 是 有 趣 的 ， 因 为 它 不 提供 任何 附加 的 信息 ， 并 且 它 的 一 般 性 不 如 规则 (7. 4)。 = 


7.2.2 挖掘 多 维 关联 规 则 


迄今 为 止 ， 我 们 研究 了 含 单个 谓词 ， 即 谓词 buys 的 关联 规则 。 例 如 ， 在 挖掘 AllElec- 

tronics 数据 库 时 ， 可 能 发 现 布尔 关联 规则 
buys( X , “digital camera” ) =>buys( X,“ HP printer” ) (7.6) 

沿用 多 维 数据 库 使 用 的 术语 ， 我 们 把 规则 中 每 个 不 同 的 谓词 称 做 维 。 因 此 ， 我 们 称 规则 
(7.6) 为 单 维 (single- dimensional) 或 维 内 关联 规则 (intradimension association rule) ， 因 为 
包含 单个 不 同 谓词 (例如 ，buys) 的 多 次 出 现 〈 即 谓词 在 规则 中 出 现 的 次 数 超过 1 次 )。 这 
种 规则 通常 从 事务 数据 中 控 据 。 

通常 ， 销 售 和 相关 数据 也 都 存放 在 关系 数据 库 或 数据 仓库 中 ， 而 不 是 只 有 事务 数据 。 实 
际 上 ， 这 种 数据 存储 是 多 维 的 。 例 如 ， 除 了 在 销售 事务 中 记录 购买 的 商品 之 外 ， 关 系数 据 库 
还 可 能 记录 与 商品 和 销售 有 关 的 其 他 属性 ， 如 商品 的 描述 或 销售 分 店 的 位 置 。 还 可 能 存储 有 
关 购 物 的 顾客 的 附加 信息 〈 例 如 ， 顾 客 的 年 龄 、 职 业 、 信 誉 度 、 收 入 和 地 址 等 ) 。 把 每 个 数 
据 库 属 性 或 数据 仓库 的 维 看 做 一 个 谓词 ， 则 可 以 挖掘 包含 多 个 谓词 的 关联 规则 ， 如 
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age(X,“20---29") A occupation( X , “student” ) =>buys(X, “laptop” ) (7.7) 
涉及 两 个 或 多 个 维 或 谓词 的 关联 规则 称 做 多 维 关联 规则 ( multidimensional association 
tule), SUM (7.7) 包含 三 个 谓词 (age, occupation 和 buys)， 每 个 谓词 在 规则 中 仅 出 现 一 
次 。 因 此 ， 我 们 称 它 具 有 不 重复 谓词 。 具 有 不 重复 谓词 的 关联 规则 称 做 维 间 关 联 规则 (in- 
terdimension association rule)。 我 们 也 可 以 挖掘 具有 重复 谓词 的 关联 规则 ， 它 包含 茶 些 谓词 的 
多 次 出 现 。 这 种 规则 称 做 混合 维 关联 规则 (hybrid-dimension association rule) 。 这 种 规则 的 一 
个 例子 如 下 ， 其 中 谓词 buys 是 重复 的 。 
age(X,“20---29”) A buys(X, “laptop” )=buys( X,“ HP printer” ) (7.8) 

数据 库 属性 可 能 是 标 称 的 或 量化 的 。 标 称 (或 分 类 ) 属性 的 值 是 “事物 的 名 称 ”。 标 称 
属性 具有 有 限 多 个 可 能 值 ， 值 之 间 无 序 (BM, occupation, brand, 、color)。 量 化 属性 
(quantitative attribute) 是 数值 的 ， 并 在 值 之 间 具 有 一 个 隐 序 CBR, age. income, price) 。 
根据 量化 属性 的 处 理 ， 控 掘 多 维 关联 规则 的 技术 可 以 分 为 两 种 基本 方法 。 

第 一 种 方法 ， 使 用 预先 定义 的 概念 分 层 对 量化 属性 离散 化 。 这 种 离散 化 在 控 气 之 前 
进行 。 例 如 ， 可 以 使 用 income 的 概念 分 层 ， 用 区 间 值 ， 如 “0..20K”,， “21..30K”, 
“30. . 40K” 等 替换 属性 原来 的 数值 。 这 里 ， 离 散 化 是 静态 的 和 预先 确定 的 。 第 3 章 介 绍 了 
一 些 离散 化 数值 属性 技术 。 离 散 化 的 数值 属性 具有 区 间 标 号 ， 可 以 像 标 称 属 性 一 样 处 理 
(其 中 ， 每 个 区 间 看 做 一 个 类 别 ) 。 我 们 称 这 种 方法 为 使 用 量化 属性 的 静态 离散 化 挖掘 多 维 
关联 规则 。 

第 二 种 方法 ， 根 据 数据 分 布 将 量化 属性 离散 化 或 聚 类 到 “ 箱 "”。 这 些 箱 可 能 在 挖掘 过 程 
中 进一步 组 合 。 离 散 化 的 过 程 是 动态 的 ， 以 满足 某 种 挖掘 标准 ， 如 最 大 化 所 控 掘 规则 的 置信 
度 。 由 于 该 策略 将 数值 属性 的 值 处 理 成 数量 ， 而 不 是 预先 定义 的 区 间或 类 别 ， 所 以 由 这 种 方 
法 挖掘 的 关联 规则 称 为 〈 动 态 ) 量化 关联 规则 。 

让 我 们 逐个 研究 这 些 挖掘 多 维 关联 规则 方法 。 为 简单 起 见 ， 我 们 把 讨论 限于 维 间 关联 规 
WW. HER, 不 是 ( 像 单 维 关联 规则 挖掘 那样 ) 搜索 频繁 项 集 ， 在 多 维 关 联 规则 挖掘 中 ， 我 
们 搜索 频繁 谓词 集 。 大 谓词 集 是 包含 上 个 合 取 谓 词 的 集合 。 例 如 ， 规 则 (7.7) 中 的 谓词 集 
lage, occupation, buys) 是 一 个 3- 谓 词 集 。 类 似 于 第 6 章 用 于 项 集 的 记号 ,我 们 用 LER 
频繁 -谓词 集 的 集合 。 


7.2.3 挖 据 量化 关联 规则 


正如 前 面 所 讨论 的 ， 关 系 和 数据 仓库 数据 通常 涉及 量化 属性 或 维 。 我 们 可 以 把 量化 属性 
离散 化 为 多 个 区 间 ， 而 后 在 关联 控 据 时 把 它们 看 做 标 称 数据 。 然 而 ， 这 种 简单 离散 化 可 能 导 
致 产生 大 量规 则 ， 其 中 许多 规则 可 能 没有 什么 用 。 这 里 ， 我 们 介绍 三 种 方法 ， 帮 助 克服 这 一 
困难 ， 以 便 发 现 新 新 的 关联 关系 :(1) 数据 立方 体 方法 ; (2) 基于 聚 类 的 方法 ; G) 揭示 
异常 行为 的 统计 学 方法 。 

1. 量化 关联 规则 的 基于 数据 立方 体 挖掘 

在 许多 情况 下 ， 量 化 属性 可 以 在 挖掘 前 使 用 预定 义 的 概念 分 层 或 数据 离散 化 技术 进行 离 
散 化 ， 其 中 数值 属性 的 值 用 区 间 标 号 替换 。 如 果 需 要 ， 标 称 属性 也 可 以 泛 化 到 较 高 的 概念 
层 。 如 果 与 任务 相关 的 结果 数据 存放 在 关系 表 中 ， 则 我 们 讨论 过 的 任何 频繁 项 集 挖掘 算 法 都 
可 以 稍 加 修改 就 能 找 出 所 有 的 频繁 谓词 集 。 尤 其 是 ， 我 们 需要 搜索 所 有 的 相关 属性 ， 而 不 是 
只 搜索 一 个 属性 (如 ts) ， 把 每 个 属性 - 值 对 看 做 一 个 项 。 

另外 ， 变 换 后 的 多 维 数据 可 以 用 来 构造 数据 立方 体 。 数 据 立 方 体 非常 适合 挖掘 多 维 关联 
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规则 : 它们 在 多 维 空间 存储 聚集 信息 〈 例 如 ， 计 数 ) ， 这 对 于 计算 多 维 关 联 规则 的 支持 度 和 
置信 度 是 基本 的 。 数 据 立方 体 的 概述 已 在 第 4 章 中 介绍 过 ， 数 据 立方 体 计 算 的 详细 算法 已 在 
第 5 章 中 给 出 。 图 7.5 显示 了 维 age. income 和 buys 的 数据 立方 体 的 方 体 的 格 。 可 以 使 用 nn 
维 方 体 的 单元 存放 对 应 的 n- 谓 词 集 的 支持 度 计 数 。 基 本 方 体 按 age, income 和 buys 聚集 了 与 
任务 相关 的 数据 ; 2-D 方 体 (age, income) 按 age 和 income 聚集 等 ; 0-D (WA) HAAS 
与 任务 相关 数据 中 事务 的 总 数 。 






0-D (顶点 ) 方 体 
Cs 1-D 方 体 
(age) (buys) 
2-D 方 体 
(age,income ) (income, buys ) 
Cage.income,buys ) 3-D (基本 ) Hik 


图 7.5 方 体 的 格 ， 形 成 一 个 3-D 数据 立方 体 。 每 个 方 体 代表 一 个 不 同 分 组 。 基 本 方 
体 包含 三 个 谓 闻 age, income 和 buys 

由 于 数据 仓库 和 OLAP 技术 的 使 用 日 益 增 长 ， 包 含 用 户 感 兴趣 的 维 的 数据 立方 体 可 能 已 
经 存在 ， 并 且 完 全 或 部 分 物化 。 如 果 是 这 种 情况 ， 则 我 们 可 以 简单 地 取出 对 应 的 聚集 值 ， 或 
使 用 较 低 层 的 物化 方 体 来 计算 它们 ， 并 使 规则 产生 算法 返回 所 需要 的 规则 。 注 意 ， 即 使 是 这 
种 情况 ， 仍 然 可 以 使 用 先 验 性 质 来 对 搜索 空间 进行 前 枝 。 如 果 一 个 -谓词 集 的 支持 度 sup 不 
满足 最 小 支持 度 ， 则 该 集合 的 进一步 探查 应 当 终 止 。 这 是 因为 该 大 项 集 的 任何 更 加 特殊 化 
版 本 的 支持 度 都 不 大 于 或 等 于 sup， 因 此 也 不 满足 最 小 支持 度 。 对 于 挖 拨 任 务 ， 当 不 存在 相 
关 的 数据 立方 体 时 ， 我 们 必须 临时 创建 一 个 。 这 成 为 冰山 立方 体 计算 问题 ， 其 中 最 小 支持 度 
阔 值 作为 冰山 条 件 (第 5 BF), 

2. 挖掘 基于 聚 类 的 量化 关联 规则 

除了 使 用 基于 离散 化 或 基于 数据 立方 体 的 数据 集 来 产生 量化 关联 规则 外 ， 还 可 以 通过 在 
量化 维 上 对 数据 聚 类 来 产生 量化 关联 规则 。( 回忆 一 下 ， 同 一 簇 中 的 对 象 相 互相 似 ， 而 与 其 
他 复 中 的 对 象 不 相似 。) 一 般 假 定 是 ， 有 趣 的 频繁 模式 或 关联 规则 通常 在 量化 属性 相对 稠密 
的 簇 中 发 现 。 这 里 ,我 们 介绍 一 种 发 现 量化 关联 规则 的 自 顶 向 下 的 聚 类 方法 和 一 种 自 底 向 上 
的 聚 类 方法 。 

下 面 介 绍 一 种 典型 的 发 现 基 于 聚 类 的 量化 频繁 模式 的 自 顶 向 下 方法 。 对 计 每 个 量化 维 ， 
可 以 使 用 一 种 标准 的 聚 类 算法 〈 例 如 ， 第 10 章 介绍 的 -均值 或 基于 密度 的 方法 ) ， 发 现 该 
维 上 满足 最 小 支持 度 阔 值 的 焦 。 对 于 每 个 这 样 的 复 ， 我 们 考察 该 能 与 另 一 维 的 一 个 包 或 标 称 
属性 值 组 合生 成 的 二 维 空间 ， 看 这 一 组 合 是 否 满足 最 小 支持 度 阐 值 。 如 果 满 足 ， 则 继续 在 该 
二 维 区 域 搜索 艇 ,并 进一步 考察 更 高 维 空间 。 在 该 过 程 中 ， 我 们 仍然 可 以 使 用 先 验 剪 枝 ， 如 
果 在 任意 点 ， 组 合 的 支持 度 不 满足 最 小 支持 度 ， 则 它 的 进一步 划分 或 与 其 他 维 组 合 也 都 不 满 
足 最 小 支持 度 。 

发 现 基于 聚 类 的 频繁 模式 的 自 底 向 上 方法 先 在 高 维 空间 聚 类 ， 形 成 支持 度 满足 最 小 支持 
EREKE, 然后 投影 并 合并 较 少 维 组 合 上 的 艇 。 然 而 ， 对 于 高 维 数据 集 ， 发 现 高 维 聚 类 本 
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身 就 是 一 个 困难 问题 。 因 此 这 种 方法 不 太 现实 。 

3. 使 用 统计 学 理论 发 现 异常 行为 

有 可 能 发 现 揭示 异常 行为 的 量化 关联 规则 ， 其 中 “异常 ”的 定义 建立 在 统计 学 理论 的 
基础 上 。 例 如 ， 下 面 的 关联 规则 可 能 指示 异常 行为 : 

sex = female>meanwage = 7.90 $/h(overall_mean_wage = 9.02 $/h) (7.9) 
这 个 规则 说 明 ， 女 性 的 平均 工资 每 小 时 只 有 7.90 美元 。 这 个 规则 (主观 上 ) 是 有 趣 的 ， 因 
为 它 揭示 了 一 群 人 的 收入 显著 地 低 于 9. 02 美元 /小 时 的 平均 工资 。( 如 果 平 均 工 资 为 7. 90 美 
元 /小 时 ， 则 女性 也 挣 7. 90 美元 /小 时 这 一 事实 就 不 是 有 趣 的 。) 

我 们 定义 的 不 可 或 缺 的 方面 涉及 使 用 统计 检验 证 实 规则 的 有 效 性 。 即 规则 (7.9) 是 可 
接受 的 ， 仅 当 统计 检验 (在 此 情况 下 ，Z- 检 验 ) 以 高 置信 度 证 实 它 可 以 推断 女性 的 平均 工 
资 确实 低 于 总 体 中 其 他 人 的 平均 工资 。( 上面 的 规则 是 从 基于 美国 1985 年 人 口 普 查 的 实际 数 
据 库 挖掘 的 。) 

在 新 的 定义 下 ， 关 联 规则 是 如 下 形式 的 规则 : 

population_subset—mean_of_values_for_the_subset (7. 10) 


其 中 ， 子 集 的 均值 显著 不 同 于 数据 库 中 它 的 补 的 均值 (并 且 被 适当 的 统计 检验 证 实 ) 。 


1.2.4 挖掘 稀有 模式 和 负 模 式 


迄今 为 止 ， 本 章 介绍 的 所 有 方法 都 是 为 了 挖掘 频繁 模式 。 然 而 ， 有 时 令 人 感 兴趣 的 不 是 
频繁 模式 ， 而 是 发 现 稀 有 的 ， 或 发 现 反映 项 之 间 的 负 相 关 的 模式 。 这 些 模式 分 别称 为 稀有 模 
式 和 负 模 式 。 本 节 ， 我 们 考虑 定义 稀有 模式 和 负 模 式 的 各 种 方法 ， 这 对 控 据 也 是 有 用 的 。 

例 7.3 稀有 模式 和 负 模 式 。 在 珠宝 首饰 销售 数据 中 ， 钻 石 表 的 销售 是 稀有 的 。 然 而 ， 
涉及 包 石 表 销 售 的 事务 可 能 是 令 人 感 兴趣 的 。 在 超市 数据 中 ， 如 果 我 们 发 现 顾客 频繁 地 购买 
经 典 可 口 可乐 或 无 糖 可 乐 ， 但 不 可 能 两 个 都 买 ， 则 一 起 购买 经 典 可 乐 和 无 糖 可 乐 被 认为 是 一 
个 负 (相关 ) 模式 。 在 汽车 销售 数据 中 ， 一 位 经 销 商 向 一 位 给 定 的 顾客 销售 了 几 辆 耗 油 的 
车 辆 (如 SUV)， 而 后 又 向 同一 顾客 销售 混合 动力 微型 汽车 。 即 使 买 SUV 与 买 混合 动力 微型 
汽车 可 能 是 负 相 关 的 事件 ， 但 是 发 现 并 考察 这 种 异常 情况 是 有 趣 的 。 a 

非 频繁 RBA) 模式 是 其 支持 度 低 于 (或 远 低 于 ) 用 户 指定 的 最 小 支持 度 阔 值 的 模 
式 。 然 而 ， 由 于 大 多 数 项 集 的 出 现 频 度 通常 都 低 于 甚至 远 低 于 最 小 支持 度 阔 值 ， 因 此 实践 中 
允许 用 户 指定 稀有 模式 的 其 他 条 件 是 可 取 的 。 例 如 ， 如 果 我 们 想 找 出 这 样 的 模式 ， 它 至 少 包 
括 一 件 其 价格 超过 500 美元 的 商品 ， 则 我 们 应 该 明确 地 说 明 这 一 约束 。 这 种 项 集 的 有 效 挖掘 
在 挖掘 多 维 关联 时 讨论 过 (7. 2. 1 节 ) ， 那 里 的 策略 是 采用 多 个 最 小 支持 度 阔 值 (例如 ， 基 
于 项 或 基于 分 组 的 ) 。 其 他 可 用 的 方法 在 基于 约束 的 模式 挖掘 中 讨论 (7.3 节 ) ， 那 里 用 户 指 
定 的 约束 推进 到 迭代 的 挖 据 过 程 中 。 

可 以 定义 负 模 式 的 方法 有 多 种 。 我 们 将 考虑 其 中 三 种 。 

定义 7. 1: 如 果 项 集 钱 和 了 都 是 频繁 的 ， 但 很 少 一 起 出 现 (sup(XUY) <sup(X) x 
sup7Y) ) ， 则 项 集 针 和 了 是 负 相 关 的 ， 并 且 模 式 XUY 是 负 相 关 模 式 。 如 果 sup (XUY) <sup 
(X) xsup( 了 )， 则 针 和 Y 是 强 负 相 关 的 ， 并 且 模 式 XUY 是 强 负 相关 模式 。 

该 定义 容易 扩展 到 包括 -项 集 的 模式 ， 其 中 >2。 

然而 ， 这 个 定义 的 一 个 问题 是 ， 它 不 是 零 不 变 的 。 即 它 的 值 可 能 错误 地 被 零 事 务 影响 ， 
其 中 零 事 务 是 不 包含 被 考察 项 集 的 任何 项 的 事务 (参见 6. 3.3 节 )。 将 在 下 面 的 例子 中 对 它 
进行 解释 。 
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例 7.4 定义 7. 1 的 零 事 务 问题 。 如 果 数 据 集中 有 许多 零 事 务 ， 则 评估 模式 是 否 负 相关 
的 主要 影响 可 能 是 零 事 务 数 ， 而 不 是 被 观测 的 模式 。 例 如 ， 假 设 一 个 缝 幼 机 店 销售 针 包 4 和 
B。 该 店 销 售 4 和 B 各 100 包 , 但 只 有 一 个 事务 包括 4 和 B 两 者 。 直 观 地 ，4 与 妃 是 负 相关 
的 ， 因 为 购买 一 种 针 包 看 来 并 不 促进 购买 男 一 种 。 

让 我 们 看 看 定义 7. 1 如 何 处 理 这 种 情况 。 如 果 总 共有 200 个 事务 , NA sup (AUB) = 
1/200 =0. 005, sup (A) xsup (B) = 100/200 x 100/200 =0.25。 因 此 , sup (AUB) <sup 
(A) xsup (B), 定义 7.1 表明 4 MB 是 强 负 相关 的 。 如 果 数 据 库 中 有 10° 个 事务 而 不 是 200 
个 事务 ， 那 么 会 怎么 样 ? 在 这 种 情况 下 ， 存 在 许多 零 事 务 ， 即 存在 许多 既 不 包括 4 也 不 包括 
B 的 事务 。 该 定义 会 怎么 样 ? 计算 sup(4UB) =1/10°, sup (X) xsup (Y) =100/106 x 100/ 
106 =1/10:。 因 此 ,sup (AUB)>>sup (X) xsup (了 ) ,与 前 面 的 发 现 矛 盾 ， 尽 管 4 和 B 的 
出 现 次 数 并 未 改变 。 定 义 7. 1 中 的 度量 不 是 零 不 变 的 ， 而 正如 6. 3. 3 节 的 讨论 ， 对 于 定量 的 
兴趣 度 度量 ， 零 不 变性 是 至 关 重 要 的 。 m 

定义 7.2: 如 果 耻 和 了 是 强 负 相关 的 ， 则 

sup(XUY) x sup(X U Y) sup(XUY) x sup(X U F) 

这 个 度量 是 零 不 变 的 吗 ? 

例 7.5 定义 7.2 的 零 事 务 问题 。 考 虑 我 们 的 针 包 例子 。 当 数据 库 中 总 共有 200 个 事务 
时 ， 我 们 有 7 

sup(A U B) x sup(A U B) = 99/200 x 99/200 = 0. 245 
> sup(A U B) x sup(A U B) = 199/200 x 1/200 ~ 0.005 
根据 定义 7.2， 这 表明 4 与 8 是 强 负 相 关 的 。 如 果 数 据 库 中 有 10° 个 事务 会 怎么 样 ? 该 度量 
将 计算 E 
sup(A U B) x sup(A U B) = 99/10° x 99/10 = 9.8 x 10” 
<sup(A U B) x sup(A U B) = 199/10° x (10° ~ 199)/10° = 1.99 x 10 
这 次 ， 该 度量 表明 4 和 B 是 正 相 关 的 ， 因 而 蔬 盾 。 该 度量 不 是 零 不 变 的 。 m 

作为 第 三 种 选择 ， 考 虑 定义 7.3， 它 基于 Kulezynski 度量 (条 件 概 率 的 平均 值 )。 它 遵 
循 6. 3. 3 节 讨 论 的 兴趣 度 度 量 的 精神 实质 。 

定义 7.3: 假设 项 集 针 和 了 都 是 频繁 的 ， 即 sup(X) 2min_sup, sup(Y)=min_sup, HP 
min_sup 是 最 小 支持 度 阀 值 。 如 果 (P(X) 了 ) +P(71 X))2<e, HP 5 是 负 模 式 阅 值 ， 则 
XUY 是 负 相 关 模 式 。 

例 7.6 基于 Kulczynski 度量 ， 使 用 定义 7. 3 的 负 相 关 模 式 。 让 我 们 再 次 考察 我 们 的 针 
包 例 子 。 设 min_sup 为 0.01% ，s =0.02。 当 数据 库 中 有 200 个 事务 时 ， 我 们 有 sup(A) =sup 
(B) =100/200 =0.5 >0.01%, 并且 (P(B14) +P (Al B))/2=(0.01+0.01)/2 <0.02, 
因此 4 与 是 负 相 关 的 。 如 果 我 们 有 更 多 的 事务 ， 这 还 成 立 吗 ? 当 数 据 库 中 有 105 个 事务 
时 ， 该 度量 计算 sup(A) = sup(B) = 100/10° =0.01% >0.01% ,并且 (PUB14) +P(AI 
B))/2 =(0.01 +0.01)/2 <0.02， 这 再 次 表明 4 5 B 是 负 相 关 的 。 这 与 我 们 的 直观 一 致 。 这 
个 定义 没有 前 两 个 定义 的 零 不 变 问 题 。 

考虑 另 一 种 情况 : 假设 有 1 万 个 事务 ， 商 店 销售 了 1000 个 4 针 包 ,但 只 有 10 4 B Et 
包 ; 然而 ,每 次 售 出 B 针 包 时 也 售 出 4 (它们 出 现在 同一 事务 中 ) 。 在 这 种 情况 下 ， 该 度量 
计算 (P(BI A) +P(41B))/2=(0.01+1)/2 =0.505>>0.02， 这 表明 4 与 召 是 正 相 关 而 不 
是 负 相 关 的 。 这 也 与 我 们 的 直观 一 致 。 = 

使 用 这 个 负 相 关 的 新 定义 ， 容 易 推 导出 挖掘 大 型 数据 库 中 负 模 式 的 有 效 方法 。 这 作为 习 
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题 留 给 感 兴趣 的 读者 。 


7.3 基于 约束 的 频繁 模式 挖掘 

数据 挖掘 过 程 可 以 从 给 定 的 数据 集中 发 现 数 以 千 计 的 规则 ， 其 中 大 部 分 规则 与 用 户 不 相 
关 或 用 户 不 感 兴趣 。 通 常 ， 用 户 具 有 很 好 的 判断 能 力 ， 知 道 沿 着 什么 “方向 ”挖掘 可 能 导 
致 有 趣 的 模式 ， 知 道 他 们 想 要 发 现 什 么 “形式 ”的 模式 。 他 们 可 能 还 知道 规则 “条 件 ”， 可 
以 排除 某 些 他 们 知道 无 趣 的 规则 。 因 此 ， 一 种 好 的 启发 式 方 法 是 让 用 户 说 明 他 们 的 这 种 直观 
或 期 望 ， 作 为 限制 搜索 空间 的 约束 条 件 。 这 种 策略 称 为 基于 约束 的 挖掘 ( constraint- based 
mining) 。 这 些 约 束 包 括 : 

e 知识 类 型 约束 : 指定 待 挖掘 的 知识 类 型 ， 如 关联 、 相 关 、 分 类 或 聚 类 。 

© 数据 约束 : 指定 任务 相关 的 数据 集 。 

。 维 / 层 约束 : 指定 挖 据 中 所 使 用 的 数据 维 (或 属性 ) 、 抽 象 屋 ,或 概念 分 层 结构 的 

层次 。 

。 兴趣 度 约束 : 指定 规则 兴趣 度 的 统计 度量 赋值 ， 如 支持 度 、 置 信和 度 和 相关 性 。 

。 规则 约束 : 指定 要 挖掘 的 规则 形式 或 条 件 。 这 种 约束 可 以 用 元 规则 (规则 模板 ) 表 

示 ， 如 可 以 出 现在 规则 前 件 或 后 件 中 谓词 的 最 大 或 最 小 个 数 ， 或 属性 、 属 性 值 和 聚 
集 之 间 的 联系 。 

以 上 约束 可 以 用 高 级 数据 挖掘 查询 语言 和 用 户 界 面 说 明 。 

前 4 种 类 型 的 约束 已 在 本 书 的 前 面 章节 讨论 过 。 本 节 ， 我 们 讨论 使 用 规则 约束 挖掘 任务 。 
这 种 基于 约束 的 挖掘 允许 用 户 描述 他 们 想 要 发 现 的 规则 ， 因 此 使 得 数据 控 气 过程 更 有 效 。 此 
外 ， 可 以 使 用 复杂 的 挖掘 查询 优化 程序 ， 利 用 用 户 指定 的 约束 ， 从 而 使 得 控 掘 过 程 更 有 效率 。 

基于 约束 的 挖掘 支持 交互 式 探索 挖掘 与 分 析 。7. 3. 1 节 将 学 习 元 规则 制导 的 挖掘 ， 它 使 
用 规则 模板 形式 来 说 明 句 法 规则 约束 。7. 3. 2 节 讨 论 模式 空间 剪 枝 〈 剪 掉 待 挖掘 的 模式 ) 和 
数据 空间 剪 枝 〈 剪 去 这 样 的 数据 片段 ， 它 们 的 进一步 探查 不 可 能 对 满足 约束 模式 的 发 现 有 
任何 贡献 ) 。 

对 于 模式 空间 剪 枝 ， 我 们 介绍 三 类 性 质 ， 它 们 有 助 于 基于 约束 搜索 空间 剪 枝 ， 反 单调 
性 、 单 调 性 和 简洁 性 。 我 们 还 讨论 一 类 特殊 的 约束 ， 称 为 可 转变 的 约束 ， 通 过 数据 的 适当 定 
Fe, 约束 可 以 推进 到 迭代 的 挖 据 过 程 中 ， 具 有 与 单调 和 反 单 调 约束 相同 的 前 枝 能 力 。 对 于 数 
据 空间 剪 枝 ， 我 们 介绍 两 类 性 质 : 数据 的 简洁 性 和 数据 的 反 单 调 性 ; 并 研究 如 何 把 它们 与 数 
据 挖掘 过 程 集成 在 一 起 。 

对 于 每 种 讨论 ,我们 都 假定 用 户 都 正在 搜索 关联 规则 。 使 用 兴趣 度 的 相关 性 度量 扩充 支 
持 度 - 置信 和 度 框架 ， 所 提供 的 过 程 都 容易 推广 到 相关 规则 的 挖掘。 


7.3.1 关联 规则 的 元 规则 制导 挖掘 

“元 规则 有 什么 作用 ?” 元 规则 使 得 用 户 可 以 说 明 他 们 感 兴趣 的 规则 的 语法 形式 。 规 则 
的 形式 可 以 作为 约束 ， 帮 助 提高 挖 括 过 程 的 性 能 。 元 规则 可 以 根据 分 析 者 的 经 验 、 期 望 或 对 
数据 的 直觉 ,或 者 根据 数据 库 模式 自动 产生 。 

例 7.7 元 规则 制导 的 挖掘 。 假 设 作为 AllElectronics 的 市 场 分 析 员 ， 你 已 经 访问 了 描述 
顾客 的 数据 〈 例 如 ， 顾 客 的 年 龄 、 地 址 和 信用 等 级 等 ) 和 顾客 事务 的 列表 。 你 对 找 出 顾客 
的 特点 与 顾客 购买 的 商品 之 间 的 关联 感 兴趣 。 然 而 ， 不 是 要 找 出 反映 这 种 联系 的 所 有 关联 规 
则 ， 你 只 对 确定 什么 样 的 两 种 顾客 特点 能 够 促进 办 公 软 件 的 销售 特别 感 兴趣 。 可 以 使 用 一 个 
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元 规则 来 说 明 你 感 兴趣 的 规则 形式 。 这 种 元 规则 的 一 个 例子 是 
P(X,Y) A P,(X,W) >buys(X, “officesoftware” ) (7.11) 
其 中 ，P, 和 P, 是 谓词 变量 ， 在 控 气 过 程 中 被 例 示 为 给 定数 据 库 的 属性 ; X 是 变量 ， 代 表 顾 
客 ; YR WIBRA P, 和 P, 的 属性 值 。 在 典型 情况 下 ， 用 户 要 说 明 一 个 例 示 已 AP, 需 
考虑 的 属性 列表 ; 否则 ， 将 使 用 默认 的 属性 集 。 
一 般 而 言 ， 元 规则 形成 一 个 关于 用 户 感 兴趣 探查 或 证 实 的 假定 。 然 后 ， 控 掘 系统 可 以 寻 
找 与 给 定 元 规则 相 匹 配 的 规则 。 例 如 ， 规 则 (7.12) 匹配 或 遵守 元 规则 (7.11). 
age(X,“30..39”) A income( X ,“41K. . 60K” )=buys( X “office software”) (7.12) 
E 


“如 何 使 用 元 规则 指导 挖掘 过 程 ?” 让 我 们 进一步 考察 这 个 问题 。 假 设 我 们 希望 挖掘 维 

间 关 联 规则 ， 如 例 7. 7 所 示 。 元 规则 是 形 如 - 
P/ANP, A+ APSO AGA AQ, (7.13) 

的 规则 模板 。 其 中 ，Pi(i=1, 2, +, D 和 Q(j=1, 2, +, r) 是 被 例 示 的 谓词 或 谓词 变 
量 。 设 元 规则 中 谓词 的 个 数 为 p=!+re 为 找 出 满足 该 模板 的 维 间 关 联 规则 ， 

。 我 们 需要 找 出 所 有 的 频繁 p- IE Lo 

。 我 们 还 必须 有 L, 中 的 二 谓词 子 集 的 支持 度 或 计数 ， 以 便 计算 由 怀 导出 的 规则 的 置 

信 度 。 

这 是 挖掘 多 维 关联 规则 的 典型 情况 。 通 过 使 用 7. 3. 2 节 介 绍 的 约束 推进 技术 扩展 这 些 方法 ， 
我 们 可 以 导出 元 规则 制导 挖掘 的 有 效 方法 。 


7.3.2 基于 约束 的 模式 产生 : 模式 空间 剪 枝 和 数据 空间 剪 枝 


规则 约束 说 明 所 挖掘 的 规则 中 变量 的 期 望 集合 / 子 集 联 系 ， 变 量 的 初始 化 常量 和 聚集 函 
数 。 用 户 可 以 使 用 他 们 的 应 用 或 数据 知识 来 说 明 挖 气 任 务 的 规则 约束 。 这 些 可 以 与 元 规则 制 
导 挖 掘 一 起 使 用 ， 或 作为 它 的 替代 。 本 节 ， 我 们 考察 规则 约束 ， 看 看 怎样 使 用 它们 ， 使 得 挖 
掘 过 程 更 有 效 。 让 我 们 研究 一 个 例子 ， 其 中 规则 约束 用 于 挖 所 混合 维 关 联 规则 。 

例 7.8 挖掘 关联 规则 的 约束 。 假 设 AllElectronics 有 一 个 多 维 销售 数据 库 ， 包 含 以 下 相 
互 关联 的 关系 : 


© item (item_ID, item_name, description, category, price) 





© sales (transaction_ID, day, month, year, store_ID, city) 

© trans_item (item_ID, transaction_ID) 

其 中 ， 表 item 包含 属性 item_ID, item_name, description, category 和 price; 表 sales 包含 属性 
transaction_ID, day, month, year, store_ID 和 city; 这 两 个 表 通 过 外 码 属 性 item_ID 和 trans- 
action_ID 连接 到 表 trans_item , 

假设 我 们 的 关联 控 掘 查询 是 “对 于 芝加哥 2010 年 的 销售 ， 找 出 关于 何 种 廉价 商品 〈 价 
格 低 于 10 美元) 的 销售 可 以 促进 (在 同一 事务 中 出 现 ) 何 种 昂 责 商品 (最低 价 为 50 美元 ) 
的 销售 的 模式 或 规则 ”。 

这 个 查询 包含 如 下 4 个 约束 : (1) sum(L price) <10, 其 中 了 代表 廉价 商品 的 item_ID; 
(2) min(J. price) 宇 50， 其 中 代表 昂贵 商品 的 item_ID; (3) T. city = Chicago; (4) T. year = 
2010， 其 中 了 代表 transaction_ID。 为 了 简单 起 见 ， 我 们 不 明确 地 显示 该 挖掘 查 询 ; 然而 ， 从 挖 
掘 查询 的 语义 ， 约 束 的 语 境 是 清楚 的 。 a 
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助 过 滤 搜 索 空 间 通常 更 有 效 ， 开 销 更 小 。 维 / 层 约 东 已 经 在 7.2 节 讨 论 过 ， 而 兴趣 度 约束 ， 
如 支持 度 、 置 信和 度 和 相关 性 度量 已 经 在 第 6 章 讨论 过 。 现 在 ， 让 我 们 集中 考虑 规则 约束 。 

“如 何 使 用 规则 约束 对 搜索 空间 进行 剪 技 ? 更 具体 地 说 ， 什 么 类 型 的 规则 约束 可 以 “ 推 
进 ” 到 挖掘 过 程 中 ， 并 且 仍 然 确 保 返 回 的 控 握 查询 回答 具有 完全 性 ?” 

一 般 而 言 ， 一 种 有 效 的 频繁 模式 挖掘 过 程 可 以 用 两 种 主要 方法 在 挖掘 期 间 对 其 搜索 空间 
进行 剪 枝 : 模式 搜索 空间 前 枝 和 数据 搜索 空间 剪 枝 。 前 者 检查 候选 模式 ， 确 定 模 式 是 否 可 以 
被 剪 掉 。 使 用 先 验 性 质 ， 剪 掉 一 个 模式 ， 如 果 在 剩 下 的 挖掘 过 程 中 ， 它 的 超 模式 都 不 可 能 产 
生 。 后 者 检查 数据 集 ， 确 定 特定 的 数据 片段 在 剩 下 的 挖掘 过 程 中 是 否 对 其 后 的 可 满足 模式 的 
产生 有 所 贡献 。 如 果 不 能 ， 则 在 之 后 的 探查 中 前 去 该 数据 片段 。 有 助 于 模式 空间 剪 枝 的 约束 
称 为 模式 剪 枝 约束 ， 而 可 以 用 于 数据 空间 剪 枝 的 约束 称 为 数据 剪 枝 约束 。 

1， 用 模式 剪 枝 约束 对 模式 空间 剪 枝 

根据 约束 如 何 与 模式 挖 据 过 程 配合 ， 模 式 剪 枝 约束 可 以 分 为 五 类 : (1) 反 单 调 的 ; 
(2) 单调 的 ; (3) 简洁 的 ; (4) 可 转变 的 ; (5) 不 可 转变 的 。 对 于 每 一 类 ， 我 们 将 使 用 一 
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个 例子 展示 它 的 特性 ， 并 解释 如 何 将 这 类 约束 用 在 挖掘 过 程 中 。 

第 一 类 约束 是 反 单 调 的 。 考 虑 例 7.8 的 规则 约束 “sum(1. price) < $100”。 假 设 我 们 使 
用 类 似 于 Apriori 的 方法 ,在 第 次 迭代 时 ， 探 查 长 度 为 的 项 集 。 如 果 一 个 候选 项 集中 的 
商品 价格 和 不 小 于 100 美元 ， 则 该 项 集 可 以 从 搜索 空间 中 前 枝 ， 因 为 再 向 该 商品 集中 添加 商 
品 将 会 使 它 更 贵 ， 因 此 不 可 能 满足 该 约束 。 换 言 之 ， 如 果 一 个 项 集 不 满足 该 规则 约束 ， 则 它 
的 任何 超 集 也 不 可 能 满足 该 规则 约束 。 如 果 一 个 规则 具有 这 种 性 质 ， 则 称 它 是 反 单 调 的 
(antimonotonic) 。 根 据 反 单调 规则 约束 进行 的 剪 枝 可 以 用 于 Aprior 风格 算法 的 每 一 次 迭代 ， 
以 帮助 提高 整个 挖掘 过 程 的 性 能 ， 从 而 确保 数据 挖掘 任务 的 完全 性 。 

先 验 性 质 是 反 单调 的 ， 它 是 说 频繁 项 集 的 所 有 非 空子 集 也 必然 是 频繁 的 。 如 果 给 定 的 项 
集 不 满足 最 小 支持 度 ， 则 它 的 任何 超 集 也 不 可 能 满足 。 这 个 性 质 用 于 Apriori 算法 的 每 次 类 
代 ， 以 便 减 少 考察 的 候选 项 集 的 个 数 ， 从 而 压缩 关联 规则 的 搜索 空间 。 

反 单 调 约束 的 其 他 例子 包括 “mi(J price) = $50” 和 “count(7) < $10” 等 。 任何 违反 
这 些 约束 的 项 集 都 可 以 丢弃 ， 因 为 向 这 种 项 集 添加 更 多 的 项 不 可 能 满足 这 些 约束 。 注 意 ,， 诸 
如 “avg(7 price) < $10” 这 样 的 约束 不 是 反 单 调 的 。 对 于 一 个 不 满足 该 约束 的 项 集 ， 通 过 
添加 某 些 (便宜 的 ) 商品 得 到 的 超 集 可 能 满足 该 约束 。 因 此 ， 把 这 种 约束 推进 到 挖掘 过 程 
中 ， 将 不 能 保证 挖 据 任务 的 完全 性 。 表 7. 2 的 第 一 列 给 出 了 基于 SQL 原 语 约束 的 列表 。 这 
些 约束 的 反 单调 性 显示 在 表 的 第 二 列 。 为 了 简化 我 们 的 讨论 ， 只 给 出 了 存在 性 操作 符 〔( 例 
WM=., e, BRAZ., €) 和 带 等 号 的 比较 (或 包含 ) BER (alin, s. a). 


表 7.2 常用 的 基于 SQL 的 模式 剪 枝 约束 的 特性 





约束 反 单 调 的 单调 的 简洁 的 
veS 否 是 是 
S2V B 是 是 
SCV 是 E 是 
min(S) <v 否 是 是 
min( S) >v 是 F 是 
max(S) <v 是 T 是 
max( S) >v 否 是 是 
count(S) <v 是 F 弱 
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( 续 ) 
约束 反 单调 的 单调 的 简洁 的 
count( S) >v T 是 Ez 
sum(S) <v( VaeS, a20) 是 否 否 
sum(S) 2vu( VaeS, a>0) T 是 E 
range(S) <v 是 否 否 
range(S) =v a 是 否 
avg(S)@x, Bei <, >} 可 转变 的 可 转变 的 否 
support( 5) >E 是 F 否 
support(S) SË 否 是 F 
all_confidence( S) >E 是 T T 
all_confidence( S) SE 否 是 E 


第 二 类 约束 是 单调 的 。 如 果 例 7. 3 中 的 规则 约束 是 “sum(7 price) = $100”， 则 基于 约 
束 的 处 理 方法 将 很 不 相同 。 如 果 项 集 / 满足 该 约束 ， 即 集合 中 的 单价 和 不 小 于 100 美元 ， 则 
进一步 添加 更 多 的 商品 到 了 将 增加 总 价 ， 并且 总 是 满足 该 约束 。 因 此 ， 在 项 集 1 上 进一步 检 
查 该 约束 是 多 余 的 。 换 言 之 ， 如 果 一 个 项 集 满足 这 个 规则 约束 ， 则 它 的 所 有 超 集 也 满足 。 如 
果 一 个 规则 约束 具有 这 种 性 质 ， 则 称 它 是 单调 的 (monotonic)。 类 似 的 规则 单调 约束 包括 
“min( l. price) < $10” , “count(1) $10” 等 。 基 于 SQL 原 语 的 单调 性 特性 约束 在 表 7.2 的 
第 三 列 给 出 。 

第 三 类 是 简洁 的 约束 。 对 于 这 类 约束 ， 我 们 可 以 枚 举 并 且 仅 枚 举 确保 满足 该 约束 的 所 有 
集合 。 也 就 是 说 ， 如 果 一 个 规则 约束 是 简洁 的 〈suecinet) ， 则 我 们 甚至 可 以 在 支持 计数 开始 
前 就 直接 精确 地 产生 满足 它 的 集合 。 这 避免 了 产生 - 测试 方式 的 过 大 开销 。 换 言 之 ， 这 种 约 
束 是 计数 前 可 剪 枝 的 。 例 如 ， 例 7. 8 中 的 约束 “min(J. price) > $50” 是 简洁 的 ， 因 为 我 们 
能 够 准确 无 误 地 产生 满足 该 约束 的 所 有 项 集 。 

具体 地 说 ， 这 种 集合 由 其 价格 不 低 于 50 美元 的 商品 的 非 空 集合 组 成 。 它 是 这 种 形式 $， 
其 中 S 4 ORE OMA MEF 50 美元 所 有 商品 的 子 集 。 因 为 有 一 个 精确 “公式 ”产生 满足 简洁 
约束 的 所 有 集合 ， 所 以 在 挖掘 过 程 中 不 必 迭 代 地 检验 该 规则 约束 。 基 于 SQL 原 语 约束 的 简 
洁 性 在 表 7. 2 的 第 四 列 给 出 9。 

第 四 类 约束 是 可 转变 的 约束 (convertible constraint) 。 有 些 类 约束 不 属于 以 上 三 类 。 然 
而 ， 如 果 项 集中 的 项 以 特定 的 次 序 排列 ， 则 对 于 频繁 项 集 的 挖掘 过 程 ， 约 束 可 能 成 为 单调 的 
或 反 单调 的 。 例 如 ,约束 “avg (1.price) < $10” 既 不 是 反 单调 的 ， 也 不 是 单调 的 。 然 而 ， 
如 果 事 务 中 的 项 以 单价 的 递增 顺序 添加 到 项 集中 ， 则 该 约束 就 变 成 了 反 单 调 的 ， 因 为 如 果 项 
集 7 违 反 了 该 约束 〈 即 平均 单价 大 于 10 美元 ) ， 则 更 贵 的 商品 添加 到 该 项 集中 不 可 能 使 它 满 
足 该 约束 。 类 似 地 ， 如 果 事 务 中 的 项 以 单价 的 递减 顺序 添加 到 项 集中 ， 则 该 约束 就 变 成 了 单 
调 的 。 因 为 ， 如 果 项 集 1 满足 该 约束 《 即 平均 单价 不 超过 10 美元 ) ， 则 添加 更 便宜 的 商品 到 
当前 项 集 将 使 得 平均 单价 不 大 于 10 美元 。 除 了 “avg(S) <v” Fl “avg(S) Sv” 外， 表 7.2 
还 给 出 了 其 他 一 些 可 转变 的 约束 ， 如 “variance(S) 宇 vw” 和 “standard_deviation(S) =v" “©, 

注意 ， 以 上 讨论 并 不 意味 每 种 约束 都 是 可 转变 的 。 例 如 , “sum(S)bo” 不 是 可 转变 的 ， 








O 对 于 count(S) <v (类 似 地 对 于 count (5) >9) ， 我 们 可 以 有 一 个 基于 基数 约束 的 成 员 产生 函数 ， 即 1X | XC 
hemset\ |X | <v} 。 成 员 以 这 种 方式 产生 具有 不 同 的 风格 ， 因 此 称 做 弱 简 洁 的 。 
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Hhoee{l<,2!, 并且 S 中 的 元 素 可 以 是 任意 实数 。 因 此 ， 还 有 第 五 类 约束 ， 称 为 不 可 转 
变 的 约束 (inconvertible constraint ) 。 一 个 好 消息 是 ， 尽 管 有 一 些 难处 理 的 约束 是 不 可 转变 
的 ， 但 大 部 分 使 用 SQL 内 部 聚集 的 简单 SQL 表达 式 都 属于 前 四 类 之 一 ， 对 于 它们 可 以 使 用 
有 效 的 约束 挖掘 方法 。 

2. 用 数据 剪 枝 约束 对 数据 空间 剪 枝 

第 二 种 对 基于 约束 的 频繁 模式 控 气 的 搜索 空间 进行 前 枝 的 方法 是 对 数据 空间 剪 枝 。 这 种 
策略 是 剪 掉 对 其 后 控 握 过 程 中 可 满足 模式 的 产生 没有 贡献 的 数据 片段 。 我 们 考虑 两 个 性 质 : 
数据 的 简洁 性 和 数据 的 反 单 调 性 。 

约束 是 数据 简洁 的 (data-succinct) ， 如 果 可 以 在 模式 挖掘 过 程 开始 时 使 用 它 对 不 可 能 满 
足 该 约束 的 数据 子 集 进 行 剪 枝 。 例 如 ， 如 果 一 个 挖掘 查询 要 求 被 控 掘 的 模式 必须 包含 数码 相 
机 ， 则 可 以 在 挖掘 过 程 开 始 前 就 剪 掉 所 有 不 包含 数码 相机 的 事务 。 这 有 效 地 压缩 了 待考 察 的 
数据 集 。 

有 趣 的 是 ， 许 多 约束 都 是 数据 反 单 调 的 〈data- antimonotonic) ， 意 指 在 挖掘 过 程 中 ， 如 
果 基 于 当前 模式 ， 一 个 数据 项 不 满足 数据 反 单调 约束 ， 则 可 以 剪 掉 它 。 我 们 剪 掉 它 ， 因 为 在 
剩 下 的 挖掘 过 程 中 ， 它 不 能 对 当前 模式 的 超 模 式 的 产生 有 任何 贡献 。 

例 7.9 数据 的 反 单调 性 。 一 个 挖掘 查询 约束 为 C, : sum( price) = $100， 即 被 挖掘 模 
式 中 商品 的 价格 和 不 小 于 100 美元 。 假 设 当 前 频繁 项 集 5 不 满足 约束 C，( 比 如， 因为 S$ 中 
商品 的 价格 和 是 50 美元 ) 。 如 果 事 务 T, 中 剩 下 的 频繁 项 ， 比 如 说 是 |i. price = $5, i. price 
= $10, ig. price = $20}, WT, 不 能 使 5 满足 该 约束 。 因 此 ,TT 不 可 能 对 由 5 挖掘 的 模式 有 
贡献 ， 因 此 可 以 把 它 剪 掉 。 

注意 ， 这 种 剪 枝 不 能 在 挖掘 开始 时 进行 ， 因 为 那 时 还 不 知道 7, 中 所 有 商品 的 价格 和 是 
和 否 超过 100 美元 〈 例 如 ， 可 能 有 i. price = $80) 。 然 而 ， 在 迭代 控 气 过程 中 ， 我 们 可 能 发 现 
AE (PIM) 与 $ 在 事务 数据 集中 不 是 频繁 的 ， 因 而 它们 将 被 前 掉 。 因 此 ， 这 种 检查 和 
前 枝 应 该 在 每 次 迭代 时 实施 ， 以 便 压 缩 数 据 搜索 空间 。 a 

TER, ARC, 是 与 模式 空间 剪 枝 相 关 的 单调 约束 。 正 如 我 们 已 经 看 到 的 ， 对 于 缩小 搜 
索 空间 而 言 ， 这 种 约束 的 能 力 非 常 有 限 。 然 而 ， 同 样 的 约束 可 以 用 来 有 效 地 缩小 数据 搜索 
空间 。 

对 于 反 单 调 约束 ， 如 C: : sum(L price) < $100, 我们 可 以 同时 对 模式 空间 和 数据 空间 进 
行 剪 枝 。 根 据 对 模式 剪 枝 的 研究 ， 我 们 知道 如 果 当 前 项 集 的 价格 和 超过 100 美元 ， 则 可 以 前 
掉 它 〈 因 为 进一步 扩展 不 可 能 满足 C,) 。 同 时 ， 我 们 还 可 以 剪 掉 事务 T, 中 剩 下 的 不 能 使 C， 
成 立 的 任何 项 。 例 如 ， 如 果 当 前 项 集 S 中 的 商品 的 价格 和 为 90 美元 ， 则 T 中 剩 下 的 频繁 项 
中 价格 和 超过 10 美元 的 任何 模式 都 可 以 被 剪 掉 。 如 果 了 中 剩余 的 项 都 不 能 使 该 约束 成 立 ， 
则 应 该 前 掉 整 个 事务 也。 

考虑 既 不 是 反 单 调 又 不 是 单调 的 模式 约束 ， 如 “C;: agl. price) < $10”。 这 些 可 能 是 
数据 反 单 调 的 ， 因 为 如 果 事 务 T, 中 剩 下 的 项 不 能 使 该 约束 成 立 ， 则 T, 也 可 以 被 前 掉 。 因 
此 ， 对 于 基于 约束 的 数据 空间 剪 枝 而 言 ， 数 据 反 单调 约束 可 能 是 非常 有 用 的 。 

注意 ， 上 面 讨论 的 用 数据 反 单 调 对 搜索 空间 剪 枝 仅 限于 基于 模式 增长 的 挖掘 算法 ， 因 为 
数据 项 的 剪 枝 取决 于 它 是 否 对 特定 模式 有 贡献 。 如 果 使 用 Apriori 算法 ， 则 数据 反 单 调 性 不 
能 用 于 对 数据 空间 前 枝 ， 因 为 那里 的 数据 与 所 有 当前 活跃 的 模式 相关 联 。 在 每 次 迭代 中 ， 通 
常 有 许多 活 夏 模式 。 一 个 数据 项 不 能 对 一 个 给 定 模式 的 超 模 式 形 成 有 和 贡献， 但 仍然 可 能 对 其 
他 活路 模式 的 超 模式 有 贡献 。 因 此 ， 对 于 不 是 基于 模式 增长 的 算法 而 言 ， 数 据 空 间 前 枝 的 能 
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力 可 能 非常 有 限 。 


7.4 挖掘 高 维 数据 和 巨型 模式 

迄今 为 止 ， 所 提供 的 频繁 模式 挖掘 方法 都 处 理 具有 少量 维 的 大 型 数据 集 。 然 而 ， 有 些 应 
用 需要 挖掘 高 维 数据 ， 即 具有 数 百 或 数 千 维 的 数据 。 我 们 可 以 使 用 已 介绍 的 方法 来 控 据 高 维 
数据 吗 ? 不 幸 的 是 ， 回 答 是 否定 的 ， 因 为 这 些 典 型 方法 的 搜索 空间 随 维 数 呈 指数 增长 。 

研究 人 员 正 沿 着 两 个 方向 前 进来 克服 这 一 困难 。 一 个 方向 是 进一步 利用 垂直 数据 格式 ， 
扩充 模式 增长 方法 ， 处 理 具有 大 量 维 (又 称 为 特征 或 项 ， 例 如 基因 ) 但 只 有 少量 行 (又 称 
为 事务 或 元 组 ， 例 如 样本 ) 的 数据 集 。 这 对 许多 应 用 都 是 有 用 的 。 例 如 ， 生 物 信息 学 的 基 
因 表 达 分 析 ， 那 里 我 们 常常 需要 分 析 微 阵列 数据 ， 它 包含 大 量 基 因 (例如 ，10 000 ~ 100 000 [301] 
个 ) ,但 是 只 有 少量 样本 (例如 ，100 ~ 1000 个 )。 另 一 个 方向 是 开发 新 的 挖掘 方法 ， 称 为 模 
式 融 合 ， 用 于 挖掘 巨型 模式 ， 即 非常 长 的 模式 。 

让 我 们 先 简 略 考察 第 一 个 方向 ， 特 别 是 ， 基 于 模式 增长 的 行 枚 举 方法 。 其 基本 思想 是 探 
查 重 直 数 据 格 式 ， 如 6. 2.5 节 所 述 ， 又 称 为 行 枚 举 。 行 枚 举 不 同 于 传统 的 列 ( 即 项 ) 枚 举 
(又 称 为 水 平 数据 格式 )。 在 传统 的 列 枚 举 中 ， 数 据 集 D 被 看 做 行 的 集合 ， 其 中 每 行 由 一 个 
项 集 组 成 。 在 行 枚 举 中 ， 数 据 集 被 看 做 一 个 项 集 ， 每 个 项 集 由 row_ID 集 组 成 ， 指 出 该 项 在 
D 的 传统 视图 的 位 置 。 很 容易 把 原 数 据 集 D 变换 成 转换 后 的 数据 集 7。 这 样 ， 具 有 较 少 行 但 
具有 大 量 维 的 数据 集 被 变换 成 具有 大 量 行 但 具有 少量 维 的 数据 集 。 于 是 ， 就 可 以 在 这 种 相对 
低 维 的 数据 集 上 开发 有 效 的 模式 增长 方法 。 该 方法 的 细节 作为 习题 ， 留 给 感 兴趣 的 读者 。 

本 章 的 其 余部 分 集中 考虑 第 二 个 方向 。 我 们 介绍 模式 融合 ， 一 种 挖掘 巨型 模式 (长度 
非常 长 的 模式 ) 的 新 的 挖掘 方法 。 这 种 方法 在 模式 搜索 空间 中 跳跃 ， 得 到 了 巨型 频繁 模式 
完全 集 的 一 个 很 好 的 近似 解 。 


通过 模式 融合 挖掘 巨型 模式 
尽管 我 们 已 经 研究 了 在 各 种 不 同情 况 下 挖掘 频繁 模式 的 方法 ， 但 是 许多 应 用 都 具有 非常 


难以 挖掘 的 隐藏 模式 ， 主 要 是 因为 这 些 模 式 太 长 。 例 如 ， 考 虑 生物 信息 学 ， 那 里 通常 的 活动 
是 DNA 或 微 阵列 数据 分 析 。 这 涉及 映射 和 分 析 非 常 长 的 DNA 和 蛋白质 序列 。 与 发 现 小 模式 




















相 比 ， 研 究 人 员 对 发 现 大 模式 〈 例 如 ， 长 序列 ) Gap la 3 [4 [= [38 [39 | 
更 感 兴趣 ， 因 为 大 模式 常常 携带 更 重要 的 信息 。 | 1 2 |3 |4 |s |- | 39 | 40 
我 们 称 这 种 大 模式 为 巨型 模式 (colossal pattern), | 2 1 |3 |4 15 39 | 40 
以 区 别 于 具有 大 支持 集 的 模式 。 发 现 巨 型 模式 是 | GGR 30 | 40 
一 个 挑战 ， 因 为 递增 式 挖掘 往往 在 到 达 长 候选 模 | 5 1 {2 |13 |4 39 | 40 
式 前 就 被 数量 巨大 的 中 等 长 度 的 模式 所 iT 困 ”。 one wae ssa ane eee eee bee woe 
这 可 以 用 下 面 的 简单 例子 解释 。 wo G EGGS 
$17.10 挖掘 巨型 模式 的 挑战 。 考 虑 一 个 |a 41 | 42 | 43 | 44] .… 178 | 79 
40 x40 的 表 ， 其 中 每 行 包 含 整数 1~40， 以 递增 | 2 alallala] lal 
顺序 出 现 。 删 除 对 角 线 上 的 整数 ， 得 到 一 个 40 x 60 41 2 ‘3 u 7 78 79 



































39 的 表 。 在 该 表 的 底部 添加 20 个 相同 的 行 ， 每 
行 都 包含 整数 41 ~79, COLAO 0, FE ea ANART: A 

X- 一 日 | 20 的 型 
个 60 x39 的 表 ( 见 图 7.6)。 我 们 把 每 行 看 做 一 模式 , 但 只 有 一 个 巨型 模式 ， 即 


个 事务 ， 并 令 最 小 支持 度 阐 值 为 20。 该 表 有 指数 (41, 42，…，79) 
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个 〈 即 (30 ) 个 ) 长 度 为 20 的 中 型 闭 / 极 大 频繁 模式 ， 但 只 有 一 个 长 度 为 39 的 巨型 模式 


a=(41,，42，…，79) 。 我 们 已 经 介绍 的 频繁 模式 挖掘 算法 都 不 能 在 合理 的 时 间 内 运行 完 
毕 。 该 模式 的 搜索 空间 类 似 于 图 7.7， 其 中 中 型 模式 的 数量 远 多 于 巨型 模式 。 m 

本 质 上 ， 我 们 已 经 研究 过 的 所 有 模式 挖掘 算法 ， 如 Apriori 和 FP-growth 算法 ， 都 是 使 用 
渐 增 的 增长 策略 ， 即 它们 把 候选 模式 的 长 度 每 次 增加 1。 像 Apriori 算法 这 样 的 宽度 优先 搜索 
方法 不 可 避免 产生 大 量 中 型 模式 ， 使 得 它 不 可 能 到 达 巨 型 模式 。 即 使 像 PP-growth 这 样 的 深 
度 优先 方法 也 很 容易 在 到 达 巨 型 模式 前 被 数量 巨大 的 子 树 所 困 。 显 然 ， 需 要 一 种 全 新 的 挖 所 
方法 来 克服 这 种 困难 。 

一 种 称 为 模式 融合 (Pattern-Fusion) 的 新 方法 应 运 而 生 ， 它 融合 少量 较 短 的 频繁 模式 ， 
形成 巨型 模式 候选 。 因 此 ， 它 在 模式 搜索 空间 跳 除 ， 避 开 了 宽度 优先 和 深度 优先 搜索 容易 落 
人 的 陷阱 。 这 种 方法 可 以 得 到 巨型 频繁 模式 完全 集 的 一 个 很 好 的 近似 解 。 

模式 融合 方法 有 如 下 主要 特点 。 首 先 ， 它 以 有 限 的 宽度 遍历 树 。 只 使 用 有 限 大 小 的 候选 
池 中 国定 个 数 的 模式 作为 模式 树 中 向 下 搜索 的 开始 结 点 。 这 样 ， 它 避免 了 指数 搜索 空间 
问题 。 

其 次 ， 模 式 融 合 具 有 只 要 可 能 就 识别 “捷径 ”的 能 力 。 每 个 模式 的 增长 不 是 添加 一 个 
项 ， 而 是 与 池 中 多 个 模式 凝聚 。 这 些 捷 径 指 导 模 式 融 合 更 快 地 沿 搜索 树 向 下 到 达 巨 型 模式 。 
图 7. 8 从 概念 上 解释 了 这 种 挖掘 模型 。 








































































































o 模式 候选 
加 巨型 模式 
当前 池 -……-; 
其 MM 
Ree Nc p 
x i: 捷径 
š = 
fal | e.o eee eve 
| ia a T | Fa i is 
图 7.7 包含 一 些 巨型 模式 ， 但 有 指数 个 中 型 模式 “图 7.8 模式 树 遍 历 ; 候选 取 自 一 个 模式 池 ， 
的 人 工 数据 这 导致 模式 空间 通 往 巨 型 模式 的 捷径 


由 于 模式 融合 旨 在 产生 巨型 模式 的 近似 解 ， 因 此 引进 了 一 个 质量 评估 模型 ， 评 估算 法 返 
回 的 模式 。 实 验 研 究 表 明 ， 模 式 融 合 能 够 有 效 地 返回 高 质量 的 结果 。 
现在 ， 让 我 们 更 详细 地 考察 模式 融合 方法 。 首 先 ， 我 们 介绍 核 模式 (core pattem) 的 概 
念 。 对 于 模式 a， 项 集 BCa 称 为 a 的 +- 核 模 式 ， 如 果 2e 
g 
是 数据 库 刀 中 包含 a 的 模式 数 ，r 称 为 核 比率 。 模 式 w (d, T) - 重 棒 的 ， 如 果 d 是 这 些 
项 的 最 大 个 数 ， 那 么 这 些 项 可 以 从 a 中 删除 ， 结 果 模 式 仍然 是 a 的 r- 核 模式 。 即 ， 
d= max | lal- |p| |B Cea, 并 且 B 是 a 的 7+- 核 模式 } 
例 7.11 核 模式 。 图 7.9 给 出 了 一 个 简单 事务 数据 库 ， 它 包含 4 个 不 同事 务 ， 每 个 重 
复 100 次 。 {a = (abe),a, = (be ,a = (acf),a, = (abcfe)} 。 如 果 我 们 置 7 =0.5， 则 





宇 7 ,0<7<1, 其 中 ，|D,| 
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D 
(ab) Soy 的 核 模式 ， 因 为 《ob) GR ay Alay 包含。 因此 ,Ts = HOO a ro ay 是 (2， 


0.5) -和 鲁 棒 的 ，os 而 是 (4, 0.5) -和 鲁 棱 的 。 图 7.9 还 表明 较 大 的 模式 (例如 (abeef)) 比 























较 小 的 模式 (例如 ON) 有 更 多 的 核 模式 。 m 
事务 《事务 数 ) BRA (0.5) 
(abe)(100) (abe), (ab), (be), (ae), Ce) | 
(bef) 100) (bef), (bc), (bf) 
Cacf)( 100) Cach), Cac), Caf? 
Cabcef)( 100) Cab), Cac), Caf), (ae), (be), Chf), Cbe), Cee), Ge), Ce), Cabe), 
Cabf), Cabe). Cace), Cach), Cafe), (bef), Chce), (bfe), Cafe), 
Cabcf) , Cabce), Chofe), Cacfe), Cabfe), Cabcef) 














图 7.9 一 个 事务 数据 库 (包含 重复 ) 和 每 个 不 同事 务 的 核 模式 


从 例 7.11 我 们 可 以 推断 ， 与 较 短 的 模式 相 比 ， 较 长 的 或 巨型 模式 有 更 多 的 核 模式 。 因 
此 ， 巨 型 模式 更 鲁 榨 ， 也 就 是 说 ， 如 果 从 该 模式 中 去 挤 少 量 项 ， 则 结果 模式 会 有 类 似 的 支 
集 。 模 式 越 大 ， 其 鲁 棒 性 越 显著 。 巨 型 模式 与 它 对 应 的 核 模式 之 间 的 鲁 棒 性 关系 可 以 扩展 到 
多 层 。 巨 型 模式 较 低层 的 核 模式 称 为 它 的 核 后 代 。 
给 定 一 个 较 小 的 。， 巨 型 模式 通常 比 短 模式 拥有 更 多 的 长 度 为 。 的 核 后 代 。 这 意味 ， 如 
果 我 们 从 长 度 为 。 的 模式 的 完全 集中 随机 抽取 ， 则 我 们 选中 巨型 模式 的 核 后 代 的 可 能 性 更 
大 。 在 图 7.9 中 ， 考 虑 长 度 。=2 模式 的 完全 集 ， 它 总 共有 C = 10 个 模式 。 为 了 解释 ， 我 们 
假定 最 长 的 模式 obcef 是 巨型 模式 。 随 机 抽取 abcef 的 一 个 核 后 代 的 概率 为 0.9。 相 反 ， 随 机 
抽取 较 短 模式 非 巨型 模式 ) 的 核 后 代 的 概率 最 多 为 0.3。 因 此 ， 巨 型 模式 可 以 通过 合并 其 [305] 
核 模式 的 真子 集 产生 。 例 如 ，abcef 可 以 通过 只 合并 它 的 两 个 核 模式 ab 和 cof 产生 ， 而 不 必 
合并 它 的 全 部 26 个 核 模式 。 
现在 ， 让 我 们 看 看 以 上 观察 如 何 帮助 我 们 在 模式 空间 跳跃 ， 更 直接 地 到 达 巨型 模式 。 考 
虑 下 面 的 方案 。 首 先 ， 对 于 用 户 指定 的 短 长 度 ， 产 生 不 大 于 该 长 度 的 频繁 模式 的 完全 集 ， 然 
后 随机 挑选 一 个 模式 B。B 是 某 个 巨型 模式 a 的 核 后 代 的 概率 很 高 。 在 该 完全 集中 ， 识 别 a 
的 所 有 核 后 代 ， 然 后 合并 它们 。 这 将 产生 a 的 更 长 的 核 后 代 ， 使 我 们 有 能 力 沿 着 核 模式 村 
T, 的 一 条 通 往 “的 路 径 向 下 跳跃 。 以 同样 的 方式 ， 我 们 选择 K 个 模式 。 产 生 的 较 长 核 后 代 
的 集合 是 候选 池 ， 用 于 下 一 次 迭代 。 
有 一 个 问题 : 给 定 巨型 模式 a 的 核 后 代 B， 如 何 找 出 a 的 其 他 核 后 代 ? 给 定 两 个 模式 a 
和 有 ， 它 们 之 间 的 距离 定义 为 Dat(a， B) =1- JPET e eR = MRA 
对 于 模式 ga， 令 C。 为 它 所 有 核 模式 的 集合 。 可 以 证 明 ，C。 被 度量 空间 的 一 个 直径 为 
r(r) 的 “ 球 ”所 限定 ， 其 中 r(r) =1 - 二 。 这 意味 ， 给 定 一 个 核 模式 Be C。， 可 以 用 
一 个 范围 查询 识别 当前 池 中 a 的 所 有 核 模式 。 注 意 ， 在 挖掘 算法 中 ， 每 个 随机 抽取 的 模式 都 
可 能 是 多 个 巨型 模式 的 核 后 代 。 因 此 ， 在 合并 用 “ 球 ” 发 现 的 模式 时 ， 可 能 产生 多 个 较 大 


的 核 后 代 。 
从 以 上 讨论 可 知 ， 模 式 融 合 方法 包括 两 个 阶段 : 
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(1) 池 初 始 化 : 模式 融合 假定 有 一 个 短 频繁 模式 的 初始 池 。 这 是 一 个 短 长 度 的 〈 如 长 
度 不 超过 3) 频繁 模式 的 完全 集 。 这 个 初始 池 可 以 用 任意 已 有 的 有 效 挖掘 算法 挖掘 。 

(2) 选 代 的 模式 融合 : 模式 融合 取 用 户 指定 的 参数 K 作为 输入 ， 这 里 玉 是 要 挖掘 模式 
的 最 大 个 数 。 该 挖掘 过 程 是 迭代 的 。 在 每 次 迭代 中 ， 从 当前 池 中 随机 地 选取 尺 个 种 子 。 对 
于 每 个 种 子 ， 我 们 找 出 直径 为 7 的 球 内 的 所 有 模式 。 然 后 ， 每 个 “ 球 ” 中 的 所 有 模式 融合 
在 一 起 ， 形 成 一 个 超 模 式 集 。 这 些 超 模式 形成 新 的 池 。 由 于 每 个 超 模 式 的 支 集 随 迭 代 而 收 
缩 ， 因 此 迭代 过 程 终止 。 

注意 ， 模 式 融合 合并 大 模式 的 小 的 子 模式 ， 而 不 是 用 单个 项 增 量 地 扩展 模式 。 因 此 ， 该 
方法 有 一 个 优点 ， 绕 过 中 型 模式 ， 沿 着 通 往 可 能 的 巨型 模式 的 路 径 前 进 。 这 一 思想 在 
图 7. 10 中 说 明 。 显 示 在 度量 空间 中 的 每 个 点 代表 一 个 核 模式 。 与 较 小 的 模式 相 比 ， 较 大 的 
模式 具有 更 多 相互 邻近 的 核 模式 ， 这 些 都 被 虚线 所 示 的 球 限定 。 在 随机 地 从 初始 模式 池 中 抽 
取 时 ， 有 更 高 的 概率 得 到 大 模式 的 核 模式 ， 因 为 大 模式 的 球 稠密 得 多 。 
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图 7.10 模式 度量 空间 : 每 个 点 代表 一 个 核 模式 。 如 虚线 内 所 显示 的 ， 巨 型 模式 的 核 模 式 比 小 
模式 的 核 模式 稠密 


理论 上 已 经 证 明 ， 模 式 融 合 导 致 巨型 模式 很 好 的 近似 解 。 该 方法 已 经 在 人 工 数 据 、 由 程 
序 跟踪 数据 和 微 阵 列 数据 构造 的 实际 数据 集 上 进行 了 测试 。 实 验 表 明 ， 该 方法 能 够 以 很 高 的 
效率 找 出 大 部 分 巨型 模式 。 


7.5 挖掘 压缩 或 近似 模式 

频繁 模式 挖掘 的 主要 挑战 是 所 发 现 的 模式 数量 巨大 。 使 用 最 小 支持 度 阔 值 控制 所 发 现 模 
式 数 量 的 效果 有 限 。 闭 值 太 低 ， 可 能 导致 输出 的 模式 数量 爆炸 ， 而 阔 值 太 高 可 能 导致 只 发 现 
常识 性 模式 。 

为 了 压缩 挖掘 产生 的 巨大 的 频繁 模式 集 ， 同 时 维持 高 质量 的 模式 ， 我 们 可 以 挖掘 频繁 
模式 的 压缩 集合 或 近似 集合 。iop- 上 最 频繁 闭 模 式 的 提出 使 得 挖掘 过 程 只 关注 上 个 最 频繁 
模式 。 尽 管 令 人 感 兴 趣 ， 但 是 它们 一 般 并 非 是 最 具 代表 性 的 上 个 模式 的 缩影 ， 因 为 这 些 模 
式 的 频 度 分 布 并 不 均匀 。 基 于 约束 的 频繁 模式 挖 气 (7.3 节 ) 结合 用 户 指定 的 约束 过 滤 无 
趣 的 模式 。 模 式 / 规 则 兴趣 度 和 相关 性 度量 (6.3 节 ) 也 可 以 用 来 帮助 限制 感 兴趣 的 模式 / 
规则 的 搜索 。 

本 节 ， 我 们 考察 频繁 模式 的 两 种 “压缩 ”形式 ， 它 们 建立 在 闭 模式 和 极 大 模式 的 概念 
上 。 回 忆 6.2.6 节 ， 闭 模式 是 频繁 模式 集 的 无 损 压 缩 ， 而 极 大 模式 是 有 损 压 缩 。 具 体 地 说 ， 
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7.5. 1 节 考 察 频 繁 模 式 基于 聚 类 的 压缩 ， 根 据 模式 的 相似 性 和 支持 度 对 模式 进行 分 组 。 
7.5.2 节 学 习 一 种 “汇总 ”方法 ， 其 目标 是 导出 感知 元 余 的 top- 个 涵盖 整个 〈 闭 ) 频繁 模 
式 集 的 代表 模式 。 这 种 方法 不 仅 考虑 模式 的 代表 性 ， 而 且 还 考虑 它们 的 相互 独立 性 ， 以 避免 
所 产生 的 模式 集中 的 元 余 。 上 个 代表 提供 了 频繁 模式 集 上 的 紧凑 压缩 ， 使 得 它们 更 容易 解释 
和 使 用 。 


7.5.1 通过 模式 聚 类 挖 气压 缩 模式 

模式 压缩 可 以 通过 模式 聚 类 实现 。 聚 类 技术 在 第 10 章 和 第 11 章 详细 介绍 。 本 节 ， 我 们 
不 必 了 解 聚 类 的 太 多 细节 ， 而 是 学 习 如 何 用 聚 类 压缩 频繁 模式 。 聚 类 是 一 个 自动 的 过 程 ， 把 
相似 的 对 象 聚 合 到 一 起 ， 使 得 能 内 的 对 象 相互 相似 ， 而 与 其 他 簇 中 的 对 象 不 相似 。 在 这 种 情 
况 下 ， 对 象 是 频繁 模式 。 使 用 一 种 称 为 8- 得 的 紧密 性 度量 对 频繁 模式 聚 类 。 代 表 模 式 从 每 
个 簇 中 选取 ， 从 而 提供 频繁 模式 集 的 一 个 压缩 版 本 。 

在 开始 介绍 前 ， 让 我 们 先 回顾 一 些 定 义 。 项 集 工 是 数据 集 忆 中 的 闭 频繁 项 集 ， 如 果 式 
是 频繁 的 ， 并 且 不 存在 XX 的 真 超 项 集 Y, 使 得 Y 与 X 在 D 中 具有 相同 的 支持 度 计数 。 项 集 X 
是 数据 集 忆 中 的 极 大 频繁 项 集 ， 如 果 天 是 频繁 的 ， 并 且 不 存在 无 的 超 项 集 Y， 使 得 和 C7Y 并 
且 Y 在 D 中 是 频繁 的 。 仅 使 用 这 些 概 念 还 不 足以 得 到 数据 集 好 的 代表 性 压缩 ， 如 例 7. 12 
所 示 。 

例 7. 12 ”使 用 闭 项 集 和 极 大 项 集 压 缩 的 缺点 。 表 7. 3 显示 了 一 个 大 型 数据 集 的 频繁 项 
集 的 一 个 子 集 ， 其 中 ge、b、c、d、e、j 代表 项 。 这 里 没有 闭 项 集 ， 因 此 我 们 不 能 使 用 闭 频 
繁 项 集 压 缩 该 数据 。 唯 一 的 极 大 频繁 项 集 是 户 。 然 而 ， 我 们 看 到 项 集 P, P, 和 已 的 支持 
度 显著 不 同 。 如 果 我 们 打算 使 用 Ps 代表 该 数据 的 压缩 版 本 ， 则 我 们 将 整个 失去 支持 度 信 息 。 
通过 目 视 考察 ,考虑 两 对 (P,，P;) 和 〈(P,，Ps)。 每 对 中 的 模式 就 支持 度 和 表达 式 而 言 都 
很 相似 。 因 此 ， 直 观 地 ，P,、P; 和 Ps 一 起 可 以 将 充当 该 数据 更 好 的 压缩 版 本 。 u 


表 7.3 频繁 项 集 的 一 个 子 集 





项 集 支持 度 
Pi lb, c, d, el 205 227 
P lb, c, d, e, fi 205 211 
ja, b, c, d, e, f} 101 758 


支持 度 
P, a, c, d, e, fi 161 563 
P; ia, c, d, e! 161 576 













因此 ， 让 我 们 看 看 是 否 能 够 找到 一 种 聚 类 频繁 项 集 的 方法 ， 作 为 得 到 它们 压缩 表示 的 一 
种 手段 。 我 们 需要 定义 一 种 好 的 相似 性 度量 ， 根 据 该 度量 对 模式 聚 类 ， 然 后 每 个 复 仅 选择 和 
输出 一 个 代表 模式 。 由 于 闭 频繁 模式 的 集合 是 原 频繁 模式 集合 的 无 损 压缩 ， 因 此 在 闭 模 式 集 
合 上 发 现代 表 模 式 是 一 个 好 想法 。 

我 们 可 以 使 用 闭 模式 之 间 的 距离 度量 。 设 P, 和 P, 是 两 个 闭 模式 ， 它 们 的 支持 事务 集 分 
jA T(P.) 和 7T(P,) o P, AP, 的 模式 距离 (pattern distance) Pat_Dist(P,, P,) 定义 为 
|T(P,) NT(P,) | 
| T(P.) U T(P,) | 
模式 距离 是 一 种 定义 在 事务 集合 上 的 有 效 距 离 度 量 (metric) 。 注 意 ， 正 如 我 们 所 期 望 的 ， 
它 包含 了 模式 的 支持 度 信息 。 

例 7.13 模式 距离 。 假 设 P 和 P, 是 两 个 模式 , 使 得 T(P,) = ji,b,b tit}, 
TCP,) = | , Het, 是 数据 库 中 的 事务 。P, MP, 之 间 的 距离 为 Pat_Dist(P,, 





Pat_Dist(P,,P,) =1 - (7.14) 
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现在 ， 我 们 考虑 模式 的 表达 。 给 定 两 个 模式 4 AB, RINA B 可 以 被 4 表达 ， 如 果 
0(B)CO(4)， 其 中 0(4) 是 模式 4 的 对 应 项 集 。 根 据 这 个 定义 ， 假 定 模式 已 Pa, ，…， 
P, ERDE H. BEURE P, 应 该 能 够 表达 该 艇 中 的 所 有 其 他 模式 。 显 然 ， RIA 
U!_,O(P,) CO(P,)。 

利用 距离 度量 ， 我 们 可 以 在 频繁 模式 集 上 简单 地 使 用 一 种 聚 类 方法 ， 如 大 均 值 (10.2 
节 ) 。 然 而 ， 这 会 带 来 两 个 问题 。 第 一 ， 聚 类 的 质量 不 能 保证 ; 第 二 ， 它 也 许 不 能 为 每 个 簇 
找到 一 个 代表 模式 〈 即 模式 P, 也 许 不 属于 相同 的 能 ) 。 为 了 克服 这 些 问 题 ， 出 现 了 56- 簇 的 
概念 ， 其 中 5(0<6<1) 度量 簇 的 紧密 性 。 

模式 己 是 被 另 一 个 模式 P'e- BH, MOP) EO(P') ， 并 且 Pat_Dist(P, P') <8, 
一 个 模式 集 形成 一 个 6- 徐 ,如 果 存 在 一 个 代表 模式 P, 使 得 对 于 该 集合 中 的 每 个 模式 P，P 
是 被 P5- 覆 盖 的 。 

注意 ， 根 据 5- 簇 的 概念 ， 一 个 模式 可 能 属于 多 个 徐 。 而 且 ， EAS, RIRH 
算 每 个 模式 与 秘 的 代表 模式 之 间 的 距离 。 因 为 模式 P 是 被 代表 模式 Po BRN, 仅 当 0(P) 
CO(P,)， 所 以 我 们 可 以 通过 仅 考虑 这 些 模式 的 支持 度 来 简化 距离 计算 : 
ITP) ATP) | ， ITP) | 
IT(P) UT(P,) | ~ | T(P) | 
如 果 我 们 限制 代表 模式 是 频繁 的 ， 则 代表 模式 (ME) 的 个 数 不 少 于 极 大 频繁 模式 的 个 数 ， 
因为 极 大 频繁 模式 只 能 被 自己 覆盖 。 为 了 得 到 更 简洁 的 压缩 ， 我 们 放宽 对 代表 模式 的 约束 ， 
即 我 们 允许 代表 模式 的 支持 度 稍微 小 于 min_sup。 

对 于 任意 代表 模式 P,， 假 定 它 的 支持 度 为 上 。 由 于 它 至 少 覆 盖 一 个 其 支持 度 至 少 为 min_ 
sup 的 频繁 模式 〈 即 已) ， 因 此 有 


ô = Pat_Dist(P,P,) =1- 


Pat_Dist( P,P.) =1- 








(7.15) 


ITP) ok 
l7(P) | 7 min_sup 
BN, k = (1-6) x min_sup 。 这 是 代表 模式 的 最 小 支持 度 ， 记 作 min_sup,。 

根据 前 面 的 讨论 ， 模 式 压缩 问题 可 以 定义 如 下 : 给 定 一 个 事务 数据 库 ， 最 小 支持 度 
min_sup 和 只 类 质量 度量 68， 模式 压缩 问题 是 找到 一 个 代表 模式 的 集合 R， 使 得 对 于 每 个 频繁 
模式 已 (关于 min_sup)， 存 在 一 个 代表 模式 Pe R (关于 min_sup,), CHS P, 并 且 |R| 
是 最 小 化 的 。 

找 出 代表 模式 的 最 小 集合 是 NP 困难 问题 。 然 而 ,已 经 开发 了 一 些 有 效 算法 ， 与 原来 闭 
模式 集 相 比 ， 它 们 把 所 产生 的 闭 模式 数目 减少 了 几 个 数量 级 。 这 些 方法 成 功 地 发 现 模 式 集 的 
高 质量 压缩 。 


7.5.2 提取 感知 元 余 的 top-k 模式 


挖掘 top- 个 最 频繁 模式 是 一 种 减少 控 气 返回 的 模式 数量 的 策略 。 然 而 ， 在 许多 情况 下 ， 
频繁 模式 不 是 相互 独立 的 ， 而 常常 是 集中 在 一 些小 区 域内 。 这 有 点 像 在 全 世界 找 出 20 个 居 
住 中 心 ， 结 果 可 能 是 集中 在 少数 几 个 国家 而 不 是 均匀 地 分 布 在 全 球 的 城市 。 大 部 分 用 户 更 愿 
意 得 到 让 个 最 有 趣 的 模式 ， 它 们 不 仅 是 显著 的 ， 而 且 是 相互 独立 的 ， 并 且 是 很 少 有 宛 余 的 。 
不 仅 具 有 高 显著 性 ， 而 且 具 有 低 元 余 的 上 个 代表 模式 的 小 集合 称 为 感知 宛 余 的 top- 模式 


(redundancy-aware top-k patterns) 。 





(7.16) 
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例 7. 14 ”感知 宛 余 的 top-k 策略 与 其 他 top-k 策略 。 图 7. 11 直观 地 显示 了 感知 宛 余 的 
top-k 模式 与 传统 的 top-k 模式 和 上 -概括 模式 。 假 设 我 们 有 图 7. 11a 所 示 的 频繁 模式 集 ， 其 中 
每 个 圆 代表 一 个 模式 ， 其 显著 性 用 灰 度 表示 。 两 个 圆 之 间 的 距离 反映 两 个 对 应 模式 的 元 余 
E: 两 个 圆 越 接近 ， 一 个 模式 对 另 一 个 而 言 就 越 宛 余 。 假 设 我 们 想 找 出 最 能 代表 给 定 集合 的 
3 个 模式 ， 即 k=3。 我 们 应 该 选择 哪 3 个 ? 

箭头 用 来 指示 所 选 的 模式 。 图 7.11b 显示 使 用 感知 元 余 的 top- 有 模式 选择 的 模式 ， 
图 7. 11c 显 示 使 用 传统 的 top-k 模式 选择 的 模式 ， 图 7. 11d 显示 使 用 -概括 模式 选择 的 模式 。 
在 图 7. 11c 中 ， 传 统 的 top-k 策略 仅 依赖 显著 性 ; 它 选 择 3 个 最 显著 的 模式 表示 该 集合 。 
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图 7. 11 比较 top-k 方 法 的 概念 视图 (其 中 ， 灰 度 表示 模式 的 显著 性 ， 并 且 显 示 的 两 个 模式 越 
邻近 ,它们 相互 越 元 余 ) a) 原 模式 ; b) 感知 元 余 的 top-k 模 式 ; c) 传统 的 top-k HE 
式 ; d) 大 概括 模式 
在 图 7. 11d 中 ,大 -概括 模式 策略 仅 依赖 于 非 元 余 性 选择 模式 。 它 发 现 3 - ME, 并 发 现 最 BO 
具 代 表 性 的 模式 是 最 靠近 每 个 徐 “ 中心 ”的 模式 。 这 些 模式 被 选中 ， 用 来 代表 数据 。 被 选 
中 的 模式 被 看 做 “概括 模式 ”， 意 指 它们 “提供 ”它们 所 代表 入 的 “概要 ”。 
相 比 之 下 ， 在 图 7. 11b 中 ， 感 知 元 余 的 top-k 模式 在 显著 性 和 元 余 性 之 间 进 行 平衡 。 
这 里 选择 的 3 个 模式 具有 高 显著 性 和 低 元 余 性 。 例 如 ， 由 于 它们 的 元 余 性 ， 两 个 高 显著 性 
的 模式 紧 挨 着 显示 。 考 虑 到 两 个 都 选 将 会 是 元 余 的 ， 所 以 感知 元 余 的 top-k 模式 策略 只 选 
择 它们 之 中 的 一 个 。 为 了 形式 化 地 定义 感知 元 余 的 top-k AR, 我们 需要 定义 显著 性 和 元 
余 性 概念 。 E 
显著 性 度量 5 是 一 个 函数 ， 它 把 模式 p e P 映 射 到 一 个 实数 值 ， 使 得 5S(p) 是 模式 p 的 
兴趣 度 〈 或 有 用 性 ) 。 一 般 而 言 ， 显 著 性 度量 可 以 是 客观 的 也 可 以 是 主观 的 。 客 观 度量 仅 依 
赖 于 模式 的 结构 和 发 现 过 程 使 用 的 数据 。 通 常 使 用 的 客观 度量 包括 支持 度 、 置 信和 度 、 相 关 度 
入 idf( 词 频 与 逆 文 档 频 率 )， 而 后 者 通常 用 于 信息 检索 。 主 观 度 量 基 于 用 户 对 数据 的 信 
赖 。 因 此 ， 它 取决 于 考察 模式 的 用 户 。 通 常 ， 主 观 度量 是 一 个 基于 用 户 的 先 验 知识 或 背景 模 
型 的 相对 评分 。 它 常常 通过 计算 模式 偏离 背景 模型 的 程度 ， 度 量 模式 的 非 期 望 性 。 设 
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Slp, OER p 和 9 的 联合 显著 性 ，S(p |9) =S(p, gq) -S(q) 是 给 定 9、P 的 相对 显著 性 。 
TE, KARESO, q) 是 两 个 模式 p A 的 共同 显著 性 ， 而 不 是 单个 超 模式 pUg 的 
显著 性 。 

给 定 显 著 性 度量 $5， 两 个 模式 p 和 9g SAAR RELA Rp, gqg) =S(p) +S(g) - 
S(p, q)o FÆ, 有 S(p1gq) =S(p) -R(p, q)o 

假定 两 个 模式 的 联合 显著 性 不 小 于 任何 一 个 模式 的 显著 性 (因为 它 是 两 个 模式 的 共同 
显著 性 ) ， 并 且 不 超过 两 个 模式 的 显著 性 之 和 (因为 存在 宛 余 ) 。 也 就 是 说 两 个 模式 之 间 的 
元 余 应 该 满足 

0 < R(p,g) < min(S(p),S(q)) (7.17) 
理想 的 元 余 性 度量 R(p, q4) 很 难得 到 。 然 而 ,我们 可 以 使 用 模式 间 的 距离 (如 ，5.1 节 定 
义 的 距离 度量 ) 来 近似 宛 余 度 。 

于 是 ， 发 现 感知 宛 余 的 top- 模式 的 问题 可 以 转换 成 发 现 最 大 化 边缘 显著 性 的 -模式 集 
问题 ， 这 是 一 个 信息 检索 已 经 透彻 研究 的 问题 。 在 信息 检索 领域 ， 一 个 文档 具有 高 边缘 相关 
性 ， 如 果 它 与 查询 相关 ， 并 且 与 先前 选 定 的 文档 具有 最 小 的 边缘 相似 性 ， 其 中 边缘 相似 性 通 
过 选取 最 相关 的 选 定 文档 计算 。 实 验 研究 表明 这 种 方法 是 有 效 的 ， 并 且 能 够 发 现 高 显著 和 低 
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元 余 的 top-k 模式。 


7.6 模式 探索 与 应 用 

对 于 发 现 的 频繁 模式 ， 挖 气 过 程 有 无 办 法 返回 附加 的 信息 ， 帮 助 我 们 更 好 地 理解 这 些 模 
A? 对 于 频繁 模式 挖 据 ， 有 哪些 应 用 ? 本 节 将 讨论 这 些 问题 。7. 6. 1 节 考 察 如 何 自动 产生 频 
繁 模式 的 语义 注解 。 这 种 注解 类 似 于 字典 ， 它 们 基于 背景 和 模式 的 用 法 提供 与 模式 相关 的 语 
义 信 息 ， 有 助 于 对 它们 的 理解 。 语 义 类 似 模式 也 形成 注解 的 一 部 分 ， 提 供 发 现 的 模式 与 用 户 
已 知 其 他 模式 之 间 更 直接 的 联系 。 

7. 6. 2 节 概 述 频繁 模式 挖掘 的 应 用 。 尽 管 第 6 章 已 讨论 过 应 用 ， 但 那里 主要 涉及 购物 篮 
分 析 和 相关 分 析 ， 但 是 还 有 许多 其 他 领域 ， 频 繁 模 式 挖 据 也 是 有 用 的 。 这 些 包 括 从 数据 预 处 
理 和 分 类 ， 到 聚 类 和 复杂 数据 的 分 析 。 


7.6.1 频繁 模式 的 语义 注解 


典型 地 ， 模 式 挖掘 产生 大 量 的 频繁 模式 ， 而 不 提供 解释 这 些 模式 的 足够 信息 。 在 7.5 
节 ， 我 们 介绍 了 缩小 频繁 模式 输出 集 规模 的 模式 处 理 技 术 ， 如 提取 感知 元 余 的 top- 丰 模式 或 
压缩 模式 集 。 然 而 ， 这 些 并 未 提供 模式 的 语义 解释 。 如 果 我 们 还 能 对 发 现 的 频繁 模式 产生 语 
义 注 解 将 会 是 有 益 的 ， 这 将 帮助 我 们 更 好 地 理解 模式 。 

“频繁 模式 的 合适 语义 注解 是 什么 ?” 想 想 我 们 在 字典 中 查找 一 个 术语 的 含义 时 ， 我 们 
找到 了 什么 。 假 设 我 们 查找 术语 “pattern”。 典 型 地 ， 一 个 词典 包含 对 该 术语 的 以 下 解释 ; 

(1) 一 组 定义 ， 如 “a decorative design, as for wallpaper, china, or textile fabrics, etc. ; 
a natural or chance configuration ;” 

(2) #14), 4H “patterns of frost on the window; the behavior patterns of teenagers; +” 

(3) RA X74 ELI, W “model, archetype, design, exemplar, motif, ---” 

类 似 地 ， 如 果 我 们 为 频繁 模式 提取 类 似 的 信息 ， 并 提供 这 种 有 结构 的 注解 会 怎么 样 ? 这 
将 为 用 户 解释 模式 的 含义 ， 决 定 如 何 ， 或 者 是 否 进一步 探查 它们 提供 很 大 的 帮助 。 不 幸 的 
是 ， 没 有 领域 专家 为 模式 提供 如 此 精确 的 语义 定义 是 不 可 能 的 。 尽 管 如 此 ， 我 们 可 以 探索 如 
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何 为 频繁 模式 挖掘 近 似 地 做 这 件 事 。 

一 般 而 言 ， 一 个 模式 的 隐藏 含义 可 以 从 具有 类 似 意义 的 模式 ， 与 它 共 同 出 现 的 数据 对 象 
和 该 模式 出 现 的 事务 中 推 新 。 包 含 这 种 信息 的 注解 类 似 于 词典 的 词 条 ， 可 以 看 做 用 有 结构 的 
语义 信息 注解 每 个 项 。 让 我 们 考察 一 个 例子 。 

例 7. 15 “一 个 频繁 模式 的 语义 注解 。 图 7. 12 显示 了 模式 “ | frequent, pattern|” iB YE 
解 的 例子 。 这 个 类 似 于 词典 的 注解 提供 了 与 “ 1pequeni，Ppatierm} ”有 关 的 语义 信息 ， 包 括 
最 突出 的 语 境 指 示 符 (context indicator) 、 最 具 代表 性 的 数据 事务 和 语义 最 类 似 的 模式 。 这 类 
语义 注解 类 似 于 自然 语言 处 理 。 一 个 词 的 语义 可 以 从 它 的 语 境 推断 ， 并 且 具 有 类 似 语 境 的 词 往 
往 语义 类 似 。 语 境 指示 符 和 代表 性 事务 从 不 同 角度 提供 了 模式 的 语 境 视图 ， 帮 助 用 户 理 解 该 模 
式 。 语 义 类 似 的 模式 提供 了 该 模式 与 用 户 已 经 知道 的 其 他 模式 之 间 的 更 直接 的 联系 。 

“我 们 如 何 为 频繁 模式 自动 地 进行 语义 注解 ?” 频 繁 模 式 高 质量 语义 注解 的 关键 是 成 功 
的 模式 语 境 建 模 。 关 于 模式 p 的 语 境 建 模 ， 有 如 下 考虑 : 





© 语 境 单元 (context unit) 是 数据 库 | Pattern: “frequent, pattern)” 
、 wy fd H uen: Ai 
D 的 基本 对 象 ， 它 携带 语义 信息 ， ete 
并 且 至 少 与 一 个 频繁 模式 p 一 起 至 “mining,” “constraint,” “Apriori? “FP-growth? 
少 一 个 出 现在 D 的 事务 中 。 语 境 单 “rakesh agrawal,” “jiawei han,” ... 
本 representative transactions: 
元 可 以 是 项 、 模 式 ， 或 者 甚至 事 1) mining frequent patterns without candidate ... 
务 ， 依 赖 于 特定 的 任务 或 数据 。 seman, - ae eds equent graph patterns 
。 模式 p 的 语 境 (context) 是 从 数据 “{frequent, sequential, pattern}; “{graph, pattern}” 
库 中 挑选 的 加 权 的 语 境 单元 的 集合 “{maximal, pattern},” “{frequent, closed, pattern},” ... 








( 称 为 语 境 指示 符 ) 。 它 携带 语义 信 
a, 并 且 与 频繁 模式 p 一 起 出 现 。 图 7.12 模式 “frequent，pattern” 的 语义 注解 
p 的 语 境 可 以 使 用 向 量 空间 模型 建 模 ， 即 p 的 语 境 可 以 表示 为 C(p) = (w(u,), 
w(tw)，…，w(w,))， 其 中 w(w) 是 项 uw 的 权重 函数 。 事 务 i 表示 成 一 个 向 量 (o, 
V2，"…，9m)》， 其 中 w=1， 当 且 仅 当 vw es; BM, v; =0。 
基于 这 些 概 念 ， 我 们 定义 语义 模式 注解 的 基本 任务 : 
(1) 选择 语 境 单元 ， 并 对 每 个 单元 设计 强度 权重 ， 对 频繁 模式 的 语 境 建 模 。 
(2) 为 两 个 模式 的 语 境 、 一 个 事务 和 一 个 模式 的 语 境 设计 相似 性 度量 。 
(3) 对 于 给 定 的 频繁 模式 ， 提 取 最 显著 的 语 境 指示 符 、 代 表 事 务 和 语义 相似 模式 ， 构 
建 注解 。 
“我 们 应 该 选择 哪些 语 境 单元 作为 语 境 指 示 符 ?” 尽 管 语 境 单元 可 以 是 项 、 事 务 或 模式 ， 
但 典型 地 ， 在 三 者 中 ， 频 繁 模式 提供 最 丰富 的 语义 信息 。 通 常 ， 有 大 量 频繁 模式 与 模式 p 相 
关联 。 因 此 ， 我 们 需要 系统 的 方法 ， 从 大 型 模式 集中 只 选择 那些 最 重要 的 、 非 宛 余 的 频繁 
模式 。 
考虑 到 闭 模式 集 是 频繁 模式 集 的 无 损 压缩 ， 我 们 可 以 先 用 有 效 的 闭 模 式 挖掘 方法 得 到 闭 
模式 集合 。 然 而 ， 正 如 7. 5 节 的 讨论 ， 闭 模式 集 不 够 紧凑 ， 需 要 进行 模式 压缩 。 我 们 可 以 使 
用 7.5.1 节 介 绍 的 模式 压缩 方法 ， 或 者 使 用 Jaccard 系数 (第 2 章 ) 进行 微 聚 类 ， 然 后 从 每 
个 簇 中 选择 最 有 代表 性 的 模式 。 
“ 接 下 去 ,我们 如 何 为 每 个 语 境 指示 符 设 定 权 重 ?” 一 个 好 的 权重 函数 应 该 具有 如 下 性 
质 : (1) RA p 最 好 的 语 境 指示 符 是 它 自己 ; (2) 如 果 两 个 模式 一 样 强 ， 则 赋予 它们 相同 
的 权重 ; G) 如 果 两 个 模式 是 独立 的 ， 则 它们 都 不 能 指示 另 一 个 的 含义 ， 模 式 的 含义 可 
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以 由 指示 符 的 出 现 或 不 出 现 推断 。 

互信 息 是 多 个 可 能 的 权重 函数 之 一 。 它 广泛 地 用 于 信息 论 ， 度 量 两 个 随机 变量 的 相互 独 
立 性 。 直 观 地 ， 它 度量 一 个 随机 变量 能 推断 另 一 个 随机 变量 多 少 信息 。 给 定 两 个 频繁 模式 
Pa Alpe, &X = {0,1] 和 Y= [0,1] 是 两 个 随机 变量 ， 分 别 代表 pa 和 ps 的 出 现 。 互 信息 
1(X;¥) 用 下 式 计 算 : 











_ P(x,y) 
I(X;Y) = 2, XP le BG PCy) (7. 18) 
其 中 , P(x=1, y=1) = Pa ， P(x =0, y=1) = Pi N D; | , P(x=1, 
y=0) = Pel- PeO Dl, Pao, y=0) = PI TP Pal 。 可 以 使 用 标准 的 拉 


互信 息 有 利于 强 相 关 的 单元 ， 因 此 可 以 用 来 对 所 选择 语 境 单元 的 指示 强度 建 模 。 使 用 语 
境 模型 ， 可 以 用 如 下 步骤 完成 模式 注解 : 

(1) 为 了 提取 最 显著 的 语 境 指示 符 ， 可 以 使 用 余弦 相似 性 〈 第 2 章 ) ， 度 量 语 境 向 量 之 
间 的 相似 性 ， 按 权重 对 语 境 指示 符 排序 ， 并 提取 多 个 最 强 的 。 

(2) 为 了 提取 代表 事务 ， 把 每 个 事务 表示 成 一 个 语 境 向 量 。 根 据 模 式 p 的 语 境 相似 性 
对 事务 排序 。 

(3) 为 了 提取 语 境 相似 的 模式 ， 对 每 个 频繁 模式 p， 根 据 它们 的 语 境 模型 与 p 的 语 境 之 
间 的 相似 性 ， 确 定 p 的 排序 。 

根据 以 上 原则 ， 已 经 在 大 型 数据 集 上 进行 了 实验 ， 产 生 语义 注解 。 下 面 的 例子 解释 了 这 
样 的 一 个 实验 。 

例 7.16 A DBLP 数据 集 上 的 频繁 模式 产生 的 语义 注解 。 表 7. 4 显示 了 为 部 分 DBLP 
数据 集 ? 的 频繁 模式 产生 的 注解 。DBLP 数据 集 包 含 了 数据 库 、 信 息 检 索 和 数据 挖掘 领域 的 
12 个 主要 会 议 的 论文 集 。 每 个 事务 由 两 个 部 分 组 成 : 作者 和 对 应 论文 的 标题 。 

考虑 两 种 类 型 的 模式 : (1) 频繁 的 作者 或 合 著 者 ， 每 个 都 是 作者 的 频繁 项 集 ; (2) 频 
繁 的 标题 术语 ， 每 个 都 是 标题 词 的 频繁 序列 模式 。 该 方法 可 以 自动 地 为 每 个 不 同类 型 的 频繁 
模式 产生 类 似 于 词典 的 注解 。 对 于 合 著者 或 单个 作者 这 样 的 频繁 项 集 ， 最 强 的 语 境 指示 符 通 
常 是 其 他 合 著 者 和 出 现在 他 们 工作 中 的 有 判别 能 力 的 标题 术语 。 提 取 的 语义 相似 的 模式 还 反 
映 了 作者 和 与 其 工作 相关 的 术语 间 的 联系 。 然 而 ， 这 些 相 似 的 模式 甚至 可 能 不 与 给 定 的 模式 
一 起 出 现在 一 篇 文章 中 。 例 如 ， 模 式 “timos_k_selli”、“ramakrishnan_srikant” 等 并 不 与 模式 
“christos_faloutsos” 一 起 出 现 ， 但 是 被 提取 ， 因 为 它们 都 是 数据 库 和 数据 挖掘 研究 人 员 ， 因 
而 语 境 类 似 ; 因此 ， 这 种 语义 注解 是 有 意义 的 。 

对 于 标题 术语 “information retrieval”， 它 是 一 个 序列 模式 ， 它 的 最 强 语 境 指示 符 通常 是 
这 样 的 作者 ， 他 们 往往 在 其 文章 标题 中 使 用 该 术语 ， 或 者 使 用 趋向 于 与 该 术语 一 起 出 现 的 其 
他 术语 。 它 的 语义 相似 的 模式 通常 提供 有 趣 的 概念 或 解释 术语 ， 它 们 具有 相近 的 意思 ， 例 
Ui, “information retrieval—rinformation filter” , 

在 两 种 情景 中 ， 提 取 的 代表 性 事务 都 给 出 了 有 效 俘获 给 定 模式 含义 的 论文 标题 。 实 验 表 
明了 产生 类 似 于 词典 注解 的 语义 模式 注解 的 有 效 性 ， 能 够 帮助 用 户 理解 被 注解 的 模式 。 m 
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表 7.4 为 DBLP 数据 集中 的 频繁 模式 产生 的 注解 























模式 类 型 注 解 
、 _ spiros papadimitriou; fast; use fractal; graph; 
语 境 指示 符 piros pap 
use correlate; 
代表 事务 multiattribute hash use gray code 
代表 事务 recovery latent time-series their observe sum 
network tomography particle filter 
christos_faloutso 代表 事务 index multimedia database tutorial 
语义 类 似 的 模式 spiros papadimitriou&christos faloutso; 
spiros papadimitriou; flip korn; timos k selli; 
ramakrishnan srikant, 
ramakrishnan srikant&rakesh agrawal 
语 境 指示 符 w_bruce_croft; web information; 
monika_rauch_henzinger; james_p_callan; full-text; 
information 代表 事务 web information retrieval 
retrieval 代表 事务 language model information retrieval 
语义 类 似 的 模式 information use; web information; probabilist information; 
information filter; text information 








这 里 介绍 的 语 境 建 模 和 语义 分 析 方 法 是 一 般 性 方法 ， 可 以 处 理 任何 具有 语 境 信 息 的 频繁 
模式 。 这 种 语义 注解 可 能 有 许多 其 他 应 用 ， 如 确定 模式 的 排 位 、 按 语义 对 模式 分 类 和 聚 类 、 
对 数据 库 进行 概括 。 模 式 语 境 模型 和 语义 分 析 的 应 用 并 不 局 限于 模式 注释 。 其 他 应 用 的 例子 
包括 模式 压缩 、 事 务 聚 类 、 模 式 关系 发 现 和 模式 同义词 发 现 。 


7.6.2 ”模式 挖掘 的 应 用 


我 们 已 经 研究 了 频繁 模式 挖掘 的 许多 方面 ， 其 主题 涵盖 从 有 效 的 控 据 算法 和 模式 的 多 样 
性 ， 到 模式 的 兴趣 度 、 模 式 的 压缩 /近似 和 语义 模式 注解 。 让 我 们 用 一 点 时 间 ， 考 虑 该 领域 
为 何 引 起 如 此 大 的 关注 。 频 繁 模式 在 哪些 应 用 领域 是 有 用 的 ? 本 节 ， 我 们 概述 频繁 模式 的 应 
用 。 我 们 已 经 涉及 一 些 应 用 领域 ， 如 购物 篮 分 析 和 相关 分 析 ， 但 是 频繁 模式 挖 据 还 能 用 于 许 
多 其 他 领域 。 这 些 涵盖 从 数据 预 处 理 和 分 类 ， 到 聚 类 和 复杂 数据 的 分 析 。 

总 而 言 之 ， 频 繁 模式 挖掘 是 一 项 数据 挖掘 任务 ， 它 发 现 频繁 出 现 并 且 具 有 某 些 突出 性 质 
的 模式 ， 这 些 性 质 使 它们 有 别 于 其 他 模式 ， 常 常 揭示 某 些 固有 的 和 有 价值 的 信息 。 模 式 可 以 
是 项 的 集合 、 子 序列 、 子 结构 或 一 些 值 。 该 任务 还 包括 稀有 模式 发 现 ， 揭 示 很 少 一 起 出 现 但 
有 趣 的 一 些 项 。 发 现 频繁 模式 和 稀有 模式 导致 许多 广泛 而 有 趣 的 应 用 。 

在 许多 数据 密集 型 应 用 中 ， 模 式 挖掘 作为 预 处 理 ， 广 泛 地 用 于 了 噪声 过 滤 和 数据 清理 。 例 
如 ， 我 们 可 以 使 用 它 分 析 微 阵 列 数据 。 典 型 地 ， 数 据 密集 型 应 用 包含 数 以 万 计 的 维 〈 例 如 ， 
表示 基因 ) 。 这 种 数据 可 能 是 充满 噪声 的 。 这 些 数 据 的 频繁 模式 挖掘 可 以 帮助 我 们 识别 哪些 
是 噪声 ， 哪 些 不 是 。 我 们 可 以 假定 频繁 地 一 起 出 现 的 项 不 太 可 能 是 随机 噪声 ， 不 应 该 过 滤 
掉 。 另 一 方面 ， 非 常 频繁 地 出 现 的 那些 项 〈 类 似 于 文本 文档 中 的 停 用 词 ) 可 能 没有 特色 ， 
也 应 该 过 滤 掉 。 频 繁 模式 挖掘 有 助 于 背景 信息 识别 和 降低 噪声 。 

模式 挖 所 常常 有 助 于 发 现 隐藏 在 数据 中 的 固有 结构 和 徐 。 例 如 ， 考 虑 DBLP 数据 ， 频 繁 
模式 挖掘 可 以 很 容易 地 发 现 有 趣 的 能 ， 如 合 著者 秘 〈 通 过 考察 经 常 一 起 合作 的 作者 ) 和 会 
议 复 〈 通 过 考察 许多 常见 的 作者 和 术语 的 共享 ) 。 这 种 结构 或 篮 可 以 用 于 更 复杂 的 数据 挖 所 
的 预 处 理 。 
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尽管 存在 大 量 分 类 方法 〈 第 8 章 和 第 9 章 ) ， 但 研究 发 现 可 以 使 用 频繁 模式 作为 构件 ， 
建立 高 质量 的 分 类 模型 ， 因 此 称 为 基于 模式 的 分 类 。 这 种 方法 之 所 以 成 功 ， 原 因 是 : 
(1) 很 不 频繁 的 项 或 项 集 可 能 是 由 随机 了 品 声 导 致 的 ， 对 模型 构造 而 言 可 能 不 可 靠 ， 但 相对 
频繁 的 模式 通常 携带 了 构建 更 可 靠 模型 的 更 多 信息 增益 ; (2) 一 般 而 言 ， 模 式 〈 即 由 多 个 
属性 组 成 的 项 集 ) 比 单个 属性 (特征 ) 携带 更 多 的 信息 增益 ; (3) 产生 的 模式 一 般 是 直观 、 
容易 理解 的 ， 并 且 容 易 解 释 。 最 近 的 研究 已 经 报告 了 一 些 方法 ， 挖 所 有 趣 的、 频繁 的 和 有 区 
分 力 的 模式 ， 并 把 它们 用 于 有 效 的 分 类 。 基 于 模式 的 分 类 方法 将 在 第 9 章 中 介绍 。 

频繁 模式 也 可 以 用 于 高 维 空间 中 子 空间 的 有 效 聚 类 。 高 维 空间 聚 类 是 一 个 挑战 ， 那 里 两 
个 对 象 之 间 的 距离 很 难度 量 。 这 是 因为 这 种 距离 受 控 于 对 象 所 在 的 不 同 维 集 。 因 此 ， 取 代 在 
整个 高 维 空间 上 对 数据 对 象 聚 类 ， 在 某 些 子 空间 中 发 现 簇 可 能 更 有 意义 。 最 近 ， 研 究 人 员 已 
经 开发 了 基于 子 空间 的 模式 增长 方法 ， 基 于 数据 对 象 的 公共 频繁 模式 对 它们 聚 类 。 他 们 的 研 
究 表明 ， 这 种 方法 对 基于 微 阵列 的 基因 表达 数据 的 聚 类 非常 有 效 。 子 空间 聚 类 方法 在 第 11 
章 讨论 。 

对 于 时 间 空 间 数据 、 时 间 序 列 数据 、 图 像 数据 、 视 频数 据 和 多 媒体 数据 的 分 析 ， 模 式 分 
析 是 有 用 的 。 时 间 空 间 数 据 分 析 的 一 个 领域 是 发 现 协同 定位 模式 。 例 如 ， 这 些 模式 可 以 帮助 
确定 特定 的 疾病 是 否 在 地 理 上 与 某 些 对 象 ( 如 水 井 、 医 院 或 河流 ) 相关 。 在 时 间 序 列 数据 
分 析 中 ， 研 究 人 员 把 时 间 序 列 值 离散 化 成 多 个 区 间 (或 水 平 ) ， 使 得 微小 的 波动 和 值 差 可 以 
被 忽略 。 然 后 ， 可 以 把 数据 概括 成 序列 模式 ， 可 以 对 它 进行 索引 ， 有 利于 相似 搜索 和 比较 分 
析 。 在 图 像 分 析 和 模式 识别 中 ,研究 人 员 已 经 识别 出 频繁 出 现 的 视频 片段 ， 将 它们 作为 
“可 视 词 ” ， 它 们 可 以 用 于 有 效 的 聚 类 、 分 类 和 比较 分 析 。 

模式 挖掘 还 用 于 序列 或 结构 数据 分 析 ， 如 树 、 图 、 子 序列 和 网 络 分 析 。 在 软件 工程 ， 研 
究 人 员 把 程序 执行 中 连续 的 或 间断 的 子 序列 看 做 有 助 于 识别 软件 错误 的 序列 模式 。 大 型 软件 
中 的 复制 -粘贴 问题 可 以 被 源 程序 的 扩展 序列 模式 分 析 识 别 。 草 窃 的 软件 程序 可 以 基于 它们 
本 质 上 等 价 的 程序 流程 /循环 结构 识别 。 可 以 识别 作者 共同 使 用 的 语句 子 结构 并 用 来 区 别 不 
同 作者 写 的 文章 。 

频繁 模式 和 有 判别 力 的 模式 可 以 用 做 基本 的 索引 结构 ( 称 为 图 索引 ) ， 帮 助 搜索 大 型 复 
杂 的 、 结 构 化 的 数据 集 和 网 络 。 这 些 支 持 图 结构 化 数据 (如 化 学 化 合 物 数据 库 或 XML 结构 
数据 库 ) 中 的 相似 性 搜索 。 这 种 模式 也 可 以 用 于 数据 压缩 和 汇总 。 

此 外 ， 频 繁 模式 还 可 以 用 于 推荐 系统 ， 那 里 ， 人 们 可 以 发 现 相 关 性 、 顾 客 行为 的 徐 和 基 
于 一 般 事件 或 有 判别 力 模式 的 分 类 模型 (第 13 章 ) 。 

最 后 ， 对 模式 挖 据 有 效 计算 方法 的 研究 与 许多 其 他 可 伸缩 的 计算 的 研究 相互 加 强 。 例 
如 ,使 用 BUC 和 Star-Cubing 算法 计算 和 物化 冰山 立方 体 (第 5 BE) 分 别 与 用 Apriori 和 FP- 
growth 算法 计算 频繁 模式 (第 6 章 ) 具有 许多 相似 性 。 


7.7 小 结 


。 频繁 模式 挖掘 的 研究 范围 已 经 远 远 超越 第 6 章 介绍 的 控 据 频繁 项 集 和 关联 的 基本 概念 和 方法 。 本 章 
给 出 了 一 个 该 领域 的 路 线 图 ， 其 中 主题 按照 可 挖 据 的 模式 和 规则 的 类 型 、 控 所 方法 和 应 用 组 织 。 

。 除了 挖掘 基本 的 频繁 项 集 和 关联 外 ， 还 可 以 挖掘 高 级 的 模式 形式 ， 如 多 层 关 联 和 多 维 关联 、 量 化 关 
联 规 则 、 稀 有 模式 和 负 模 式 。 还 可 以 挖掘 高 维 模式 、 压 缩 的 或 近似 的 模式 。 

。 多 层 关联 涉及 多 个 抽象 层 中 的 数据 〈 例 如 , “ 买 计算 机 ”和 “ 买 便携 式 计算 机 ") 。 这 些 可 以 使 用 
多 个 最 小 支持 度 立 值 挖掘 。 多 维 关联 包含 多 个 维 。 挖 据 这 种 关联 的 技术 因 如 何 处 理 重 复 谓词 而 异 。 
重 化 关联 规则 涉及 量化 属性 。 离 散 化 、 聚 类 和 揭示 异常 行为 的 统计 分 析 可 以 与 模式 控 掘 过 程 集成 在 
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一 起 。 


。 稀有 模式 很 少 出 现 但 特别 有 趣 。 负 模式 是 其 成 员 呈 现 负 相关 行为 的 模式 。 应 该 小 心 定 义 负 模 式 ， 考 


虑 零 不 变性 性 质 。 稀 有 模式 和 负 模 式 可 能 凸显 数据 的 异常 行为 ， 这 可 能 很 有 趣 。 


。 基于 约束 的 挖 拥 策 略 可 以 用 来 引导 挖 据 过 程 ， 挖 所 与 用 户 直 观 一 致 或 满足 某 些 约束 的 模式 。 许 多 用 


户 指定 的 约束 都 可 以 推进 到 挖掘 过 程 中 。 约 束 可 以 分 为 模式 剪 枝 约束 和 数据 剪 枝 约束 ， 这 些 约束 的 
性 质 包括 单调 性 、 反 单调 性 、 数 据 反 单调 性 和 简洁 性 。 具 有 这 些 性 质 的 约束 可 以 正确 地 集成 到 数据 
挖掘 过 程 中 。 


。 已 经 为 高 维 空间 中 的 模式 挖掘 开发 了 一 些 方法 ， 包 括 为 挖掘 维 数 很 大 但 元 组 很 少 的 数据 集 (如 微 


阵列 数据 ) 的 基于 行 故 举 的 模式 增长 方法 ， 以 及 通过 模式 融合 方法 控 据 巨型 模式 〈 即 非常 长 的 
模式 ) 。 


。 为 了 减少 挖掘 返回 的 模式 数量 ， 我 们 可 以 代 之 以 挖掘 压缩 模式 或 近似 模式 。 压 缩 模 式 可 以 通过 基于 


聚 类 概念 定义 代表 模式 来 挖 据 ， 而 近似 模式 可 以 通过 提取 感知 元 余 的 top- 大 模式 〈 即 上 个 代表 模式 
的 小 集合 ， 它 们 不 仅 具 有 高 显著 性 ， 而 且 相互 之 间 低 元 余 ) 来 挖掘 。 


。 可 以 产生 语义 注解 ， 帮 助 用 户 理解 发 现 的 频繁 模式 (如 ，” jjegueni ，patterm| ”这 样 的 术语 ) 的 含 


义 。 这 样 的 注解 类 似 于 词典 ， 提 供 关于 项 的 语义 信息 。 这 些 信息 包括 语 境 指示 符 〈 例 如 ， 指 示 模 
式 语 境 的 术语 ) 、 最 具 代 表 性 的 事务 (例如 ,包括 该 术语 的 片段 或 语句 ) 和 语义 最 相似 的 模式 〈 例 
如 ，”|maximal，pattern| ”与 ”|frequent，pattern| ”语义 类 似 ) 。 这 种 注解 从 不 同 角度 提供 了 模式 
的 语 境 视图 ， 有 助 于 理解 它们 。 


。 频繁 模式 挖掘 具 有 形形色色 的 应 用 ， 涵 盖 从 基于 模式 的 数据 清理 ， 到 基于 模式 的 分 类 、 聚 类 、 离 群 


点 或 异常 分 析 。 这 些 方法 在 本 书 的 随后 章节 中 讨论 。 


习题 
提出 并 概述 一 种 挖掘 多 层 关联 规则 的 层 共 享 挖掘 方 法 ， 其 中 每 个 项 用 它 的 层 位 置 编 码 。 设 计 它 ， 使 得 
数据 库 的 初始 化 扫 措 为 每 个 概念 县 的 项 收集 计数 ， 识 别 频繁 项 和 次 频繁 项 。 就 挖掘 多 层 关联 的 处 理 开 
销 与 挖掘 单 层 关联 相 比较 发 表 评论 。 
假设 作为 一 家 连锁 店 的 经 理 ， 你 想 使 用 销售 事务 数据 库 发 现 你 的 商店 的 广告 效果 。 尤 其 是 ， 你 想 研 究 
具体 因素 如 何 影响 预告 特定 类 型 商品 降价 出 售 的 广告 效果 。 要 研究 的 因素 是 : 顾客 居住 的 地 区 (re- 
gion) 、 星 期 几 (day-of-the-week) 和 一 天 内 的 广告 次 数 (fime-of-the- day) 。 讨 论 如 何 设计 一 种 有 效 的 
方法 ， 控 气 该 事务 数据 集 ， 并 解释 如 何 用 多 维和 多 层 挖掘 方法 帮助 你 得 到 好 的 解 。 
量化 关联 规则 可 能 揭示 数据 集中 的 异常 行为 ， 其 中 “异常 ”可 以 根据 统计 学 理论 定义 。 例 如 ，7. 2.3 
节 表 明 关 联 规则 

sex = female N meanwage =7. 90 $/h (overallmeanwage =9.02 $/h) 

暗示 一 个 异常 模式 。 该 规则 说 明 ， 女 性 的 平均 工资 每 小 时 只 有 7. 90 美元 ， 显 著 地 低 于 每 小 时 9. 02 美 
元 的 总 体 平均 工资 。 讨 论 如 何在 具有 量化 属性 的 大 型 数据 集中 系统 而 有 效 地 发 现 这 种 量化 规则 。 
在 多 维 数据 分 析 中 ， 提 取 数 据 立 方 体 中 与 度量 显著 变化 相关 联 的 类 似 单 元 特征 对 是 有 趣 的 。 其 中 ， 单 
元 是 类 似 的 ， 如 果 它 们 被 上 卷 ( 即 祖先 ) 、 下 外 (BER) 或 一 维 突变 ( 即 堂 隐 妹 )。 这 种 分 析 称 为 
立方 体 梯 度 分 析 。 

假设 立方 体 的 度量 是 average。 用 户 提 出 了 一 组 探测 单元 ， 并 希望 发 现 它们 满足 一 定 梯度 阐 值 的 
对 应 梯度 单元 的 集合 。 例 如 ， 找 出 其 平均 销售 价格 高 于 给 定 探测 单元 20% 的 对 应 梯度 单元 的 集合 。 
开发 一 个 算法 ， 有 效 地 挖掘 大 型 数据 立方 体 中 被 约束 的 梯度 单元 的 集合 。 
7.2.4 节 给 出 了 一 些 定义 负 相 关 模 式 的 方法 。 考 虑 定义 7.3: “假设 项 集 王 和 了 都 是 频繁 的 ， 即 
sup(X) 2min_sup, sup( Y) >min_sup, FEP min_sup 是 最 小 支持 度 阐 值 。 如 果 (P(X | Y) +P(Y | X))/ 
2<e, Khe ERMA, WXUYRARKEXK.” 为 挖掘 负 相关 模式 集 设计 一 个 有 效 的 模式 增 
长 算法 。 
证 明 下 表 中 的 每 一 项 正确 地 刻画 了 它 对 应 的 关于 频繁 项 集 挖 握 的 规则 约束 。 
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规则 约束 反 单 调 性 单调 性 简洁 性 
(a) veS E 是 是 
(b) SCV 是 否 是 
(c) min(S) <v 否 是 是 
(d) range(S) <v 是 否 否 
(e) variance(S) <v 可 转换 的 可 转换 的 否 


7.7 商店 中 每 种 商品 的 价格 都 是 非 负 的 。 商 店 经 理 只 对 某 些 形式 的 规则 感 兴趣 ， 使 用 (a) ~ (d) 给 定 
的 约束 。 对 于 以 下 每 种 情况 ， 识 别 它们 的 约束 类 型 ， 并 简略 讨论 如 何 使 用 基于 约束 的 挖掘 有 效 地 控 据 
这 种 关联 规则 。 
(a) 至 少 包含 一 个 蓝光 DVD 电影 。 
(b) 包含 一 些 商 晶 ， 它 们 的 价格 和 小 于 150 美元 。 
(e) 包含 一 件 免费 商品 ， 并 且 其 他 商品 的 价格 和 至 少 是 200 美元 。 
(d) 所 有 商品 的 平均 价格 在 100 ~ 500 美元 之 间 。 

7.8 7.4.1 节 介 绍 了 挖 拥 高 维 数据 的 核 模式 融合 方法 。 解 释 为 什么 如 果 存 在 的 话 ， 数 据 集中 的 长 模式 很 可 
能 被 这 种 方法 发 现 。 

7.9 7.5.1 节 把 闭 模 式 P, 和 P, 之 间 的 模式 距离 定义 为 

|7(P) NT(P;) | 

[T(P,) UTCP,) | 
其 中 , FTCP ) 和 7(P,) 分 别 是 P, 和 户 的 支持 事务 集 。 这 是 一 个 有 效 的 距离 度量 (distance metric) 
吗 ? 给 出 推导 支持 你 的 答案 。 

7.10 ”关联 规则 挖 抉 常常 产生 大 量 的 规则 ， 其 中 许多 可 能 是 类 似 的 ， 因 而 没有 包含 多 少 新 信息 。 设 计 一 种 
有 效 的 算法 ， 把 大 型 模式 集 压缩 成 小 的 、 紧 凑 的 集合 。 讨 论 你 的 挖掘 方法 在 不 同 的 模式 相似 性 定义 
下 是 否 是 鲁 棒 的 。 

7. 11 ”频繁 模式 挖 据 可 能 产生 过 多 的 模式 。 因 此 ， 重 要 的 是 开发 挖掘 压缩 模式 的 方法 。 假 设 用 户 只 想得到 
上 个 模式 〈 其 中 , 上 是 一 个 小 整数 ) 。 概 述 一 种 有 效 的 方法 ， 它 产生 K 个 最 具 代表 性 的 模式 ， 其 中 越 
是 截然 不 同 的 模式 越 是 首选 的 模式 。 使 用 一 个 小 数据 集 解释 你 的 方法 的 有 效 性 。 

7.12 为 挖掘 的 模式 产生 谓 义 注解 是 有 趣 的 。7. 6. 1 节 介 绍 了 一 种 模式 注解 方法 。 其 他 方法 也 是 可 能 的 ， 
如 利用 类 型 信息 。 例 如 ， 在 DBLP 数据 集中 ， 人 作者、 会议、 术语 和 论文 形成 多 类 型 的 数据 。 为 自动 
的 语义 模式 注解 开发 一 种 方法 ， 很 好 地 利用 该 类 型 信息 。 


7.9 文献 注释 


本 章 介绍 了 各 种 不 同 的 方法 ,扩展 了 (第 6 章 介绍 的 ) 频繁 项 集 挖掘 的 基本 技术 。 一 个 扩展 方向 是 控 
据 多 层 和 多 维 关联 规则 。 多 层 关联 规则 控 据 由 Srikant 和 Agrawal[ SA95], Han 和 Ful HF95] 研究 。 在 Sri- 
kant 和 Agrawal[ SA95] 中 ， 这 种 挖掘 在 广义 关联 规则 的 语 境 下 研究 ， 并 且 提 出 了 一 种 R- 兴 趣 度 ， 用 来 删除 
元 余 规 则 。Kamber、Han 和 Chiang[ KHC97] 研究 了 使 用 量化 属性 的 静态 离散 化 和 数据 立方 体 挖 所 多 维 关联 
规则 。 

另 一 个 扩展 方向 是 在 数值 属性 上 挖掘 模式 。Srikant 和 Agrawal[ SA96] 提出 了 一 种 非 基 于 网 格 的 技术 ， 
控 据 量化 关联 规则 ， 它 使 用 了 一 种 部 分 完全 性 度量 。 基 于 规则 聚 类 挖掘 量化 关联 规则 由 Lent, Swami 和 Wi- 
dom[ LSW97] 提出 。 基 于 *- 单 调和 方 格 区 域 控 据 量化 关联 规则 的 技术 由 Fukuda, Morimoto, Morishita 和 To- 
kuyama[ FMMT96] 和 Yoda, Fukuda, Morimoto 等 [YFM*97] 提出 。 在 区 间 数 据 上 控 据 (基于 距离 的 ) 关 
联 规则 由 Miller 和 Yang[ MY97] iHe Aumann 和 Lindell[ AL99] 研究 了 基于 统计 理论 的 量化 关联 规则 控 
掘 ， 只 提供 那些 显著 偏离 正常 数据 的 规则 。 

通过 推进 基于 分 组 的 约束 挖掘 稀有 模式 由 Wang, He 和 Han[ WHHOO] 提出 。Savasere Omiecinski 和 
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Navathe[ SON98 ] ， 以 及 Tan, Steinbach 和 Kumar[ TSK05 ] 讨论 了 挖掘 负 关 联 规 则 。 

基于 约束 的 挖掘 把 挖掘 过 程 直接 导向 用 户 可 能 感 兴趣 的 模式 。Klemettinen 、Mannila Ronkainen 等 
[KMR*94] 提出 使 用 元 规则 作为 定义 有 趣 的 一 维 关联 规则 形式 的 语法 和 语义 过 滤器 。 元 规则 制导 的 
挖掘 由 Shen, Ong, Mitbander 和 Zaniolof SOMZ96 j 提出 ， 那 里 的 元 规则 后 件 指 定 用 于 满足 元 规则 前 件 
的 数据 动作 〈 如 贝 叶 斯 聚 类 或 绘图 ) Fu 和 Han[ HF95 ] 研究 了 关联 规则 元 规则 制导 挖掘 的 基于 关系 
的 方法 。 

使 用 模式 剪 校 约束 的 基于 约束 的 挖掘 方法 由 Ng, Lakshmanan, Han 和 Pang[ NLHP98 ] Lakshmanan, 
Ng, Han 和 Pang[ LNHP99] ， 以 及 Pei, Han 和 Lakshmanan[ PHL01] 研究 。 使 用 数据 剪 枝 约束 归 约 数据 的 基 
于 约束 的 模式 挖掘 由 Bonchi、Giannotti、Mazzanti 和 Pedreschi [ BGMP03], LA Æ Zhu, Yan, Han 和 
YuLZYHY07] 研 究 。 一 种 挖掘 约束 相关 集 的 有 效 方法 在 Grahne, Lakshmanan 和 Wang[ GLW00] 中 给 出 。 一 
种 对 偶 控 掘 方法 在 Bucila, Gehrke, Kifer 和 White[ BGKW03 ] 中 给 出 。 涉 及 在 控 据 中 使 用 模板 或 谓词 约束 
的 其 他 思想 在 Anand 和 Kahn[ AK93], Dhar 和 Tuzhilin[ DT93], Hoschka 和 Klösgen[ HK91], Liu, Hsu 和 
Chen[ LHC97] Silberschatz 和 Tuzhilin[ ST96], ，Srikant 、Vu 和 Agrawa[ SVA97] 中 讨论 。 

当 控 据 涉 及 诸如 生物 信息 学 应 用 中 的 高 维 模式 时 ， 传 统 的 模式 挖掘 方法 遇 到 了 挑战 。Pan 、Cong 、Tung 
等 [PCT "03] 提出 了 CARPENTER ， 一 种 在 高 维 生 物 学 数据 集中 发 现 闭 模式 的 方法 ， 它 结合 了 数据 的 垂直 
表示 和 模式 增长 方法 的 优点 。Pan、Tung、Cong 和 Xu[ PTCX04] 提出 了 COBBLER， 它 结合 行 枚 举 和 列 枚 
举 ， 发 现 闭 频繁 项 集 。Liu、Han、Xin 和 Shao[ LHXS06] 提出 TDClose， 从 极 大 行 集 开始 ， 集 成 行 枚 举 树 ， 
挖掘 高 维 数据 中 的 闭 频 繁 模 式 。 它 使 用 最 小 支持 度 阅 值 的 剪 枝 能 力 缩小 搜索 空间 。 关 于 挖掘 称 为 巨型 模式 
的 非常 长 的 模式 ，Zhu、Yan、Han 等 [ZYH -07] 开发 了 核 模式 融合 方法 ， 它 在 指数 多 个 中 间 模 式 中 跳跃 ， 
到 达 巨 型 模式 。 

为 了 产生 归 约 的 模式 集 ， 当 前 的 研究 集中 在 挖掘 频繁 模式 的 压缩 集 。 闭 模式 可 以 看 做 频繁 模式 的 无 损 
压缩 ， 而 极 大 频繁 模式 可 以 看 做 频繁 模式 的 简单 有 损 压 缩 。Wang 、Han Lu 和 Tsvetkov[ WHLTOS] 提出 的 
top-k Hist, LAB Yang, Fayyad 和 Bradley[ YFB01] 提出 的 容错 模式 都 是 有 趣 模式 的 可 选 形式 。Afrai 、Gio- 
nis 和 Mannila[ AGM04] 提出 使 用 大 项 集 涵盖 频繁 模式 的 集合 。 对 于 频繁 项 集 压 缩 ，Yan、Cheng、Han 和 
Xin[ YCHX05] 提出 了 一 种 基于 轮廓 的 方法 ， 而 Xin, Han, Yan 和 Cheng[XHYC05] 提出 了 一 种 基于 只 类 
的 方法 。 通 过 考虑 模式 的 显著 性 和 模式 的 宛 余 性 ，Xin、Cheng Yan 和 Han[XCYH06] 提出 了 一 种 提取 感知 
TRH top-k 模式 的 方法 。 

频繁 模式 的 自动 语义 注解 对 于 解释 模式 的 含义 是 有 用 的 。Mei、Xin、Cheng  [MXC*07] 研究 了 频繁 
模式 语义 注解 的 方法 。 

频繁 项 集 挖掘 的 一 个 重要 扩展 是 挖掘 序列 和 结构 数据 。 这 包括 挖掘 序列 模式 (如 Agrawal 和 Sri- 
kant[ AS95], Pei, Han, Mortazavi- Asl 等 [| PHMA*01, PHMA*04], ， 以 及 Zaki[ Zak01]j)、 挖 掘 频繁 
“情节 (Mannila, Toivonen 和 Verkamo[ MTV97 ] ) 、 控 据 结 构 模 式 ( HON, Inokuchi, Washio 和 Motoda 
[IWM98], Kuramochi 和 Karypis[ KKO1], UA Yan 和 Han[ YH02 |] ) 、 控 气 周期 关联 规则 ( Özden, 
Ramaswamy 和 Silberschatz[ ORS98]) 、 事 务 间 关 联 规则 挖 据 (Lu. Han 和 Feng[ LHF98]) 和 日 历 购 物 
篮 分 析 (Ramaswamy, Mahajan 和 Silberschatz[ RMS98 ] ) 。 控 掘 这 些 模 式 被 视 为 高 级 课题 ， 读 者 可 以 参 
阅 以 上 文献 。 

模式 挖掘 已 经 被 扩展 ， 以 便 帮 助 有 效 的 分 类 和 聚 类 。 基 于 模式 的 分 类 (如 Liu, Hsu 和 Ma[ LHM98]， 
Cheng, Yan, Han 和 Hsu[ CYHH07] ) 在 第 9 章 讨论 。 基 于 模式 的 聚 类 (如 Agrawal, Gehrke, Gunopulos 和 
Raghavan[ AGGR98] ， 以 及 H. Wang, W. Wang, Yang 和 Yul WWYY02]) 在 第 11 章 讨 论 。 

模式 挖掘 还 有 助 于 其 他 数据 分 析 和 处 理 任务 ， 如 立方 体 梯度 挖掘 和 判别 分 析 (Imielinski 、Khachiyan 和 
Abdulghani[ IKA02], Dong, Han, Lam 等 [DHL*04], Ji, Bailey 和 Dong[ JBD05 ] ) 、 基 于 有 判别 力 的 模式 
的 索引 (Yan, Yu 和 Han[YYH05]) 和 基于 有 判别 力 的 模式 的 相似 性 搜索 (Yan, Zhu, Yu 和 Han 
[YZYH06]) 。 : 

模式 挖掘 已 经 被 扩展 到 控 握 空间 、 时 间 、 时 间 序 列 、 多 媒体 数据 和 数据 流 。 挖 气 空 间 关 联 规则 或 空间 





324 


210 - 第 7 章 高 级 模式 挖掘 


排列 规则 由 Koperski 和 Han[ KH95], Xiong, Shekhar, Huang 等 [XSH*04], ， 以 及 Cao, Mamoulis 和 Cheung 
LCMC05 ] 研究 。 基 于 模式 的 时 间 序 列 控 据 在 Shieh 和 Keogh[ SK08], ， 以 及 Ye 和 Keogh[ YK09] .中 讨论 。 关 
于 基于 模式 的 多 媒体 数据 控 气 有 许多 研究 ， 如 Zaiane、Han 和 Zhu[ ZHZ00], LAR Yuan, Wu 和 Yang 
[YWY07]。 在 数据 流 上 挖掘 频繁 模式 已 经 被 许多 研究 人 员 提 出 ， 包 括 Manku 和 Motwani[ MMO2],- Karp, 
Papadimitriou 和 Shenker[ KPS03] ， 以 及 Metwally, Agrawal 和 El Abbadi[ MAA05 ] 。 这 些 模式 挖掘 被 视 为 高 级 
课题 。 

模式 挖 握 具 有 广泛 的 应 用 。 应 用 领域 包括 计算 机 科学 ， 如 软件 错误 分 析 、 传 感 器 网 络 挖 握 和 操作 系统 
性 能 改进 。 例 如 ，Li、Lu、Myagmar 和 Zhou[ LLMZ04 ] 的 CPMiner 使 用 模式 挖掘 识别 复制 - 粘贴 代码 ， 隔 
离 错误 。Li 和 Zhou[ LZ05] 的 PR-Miner 使 用 模式 挖掘 从 源 代码 中 提取 针对 具体 应 用 的 程序 设计 规则 。 判 别 
模式 挖 据 对 程序 错误 检测 和 软件 行为 分 类 (Lo, Cheng, Han 等 [LCH 09]) 以 及 传感器 网 络 的 故障 检测 
HÆ (Khan, Les Ahmadi 等 【KLA *08]) AFAR. 
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分 类 : 基本 概念 


分 类 是 一 种 重要 的 数据 分 析 形 式 ， 它 提取 刻画 重要 数据 类 的 模型 。 这 种 模型 称 为 分 类 
器 ， 预 测 分 类 的 《离散 的 、 无 序 的 ) 类 标号 。 例 如 ， 我 们 可 以 建立 一 个 分 类 模型 ， 把 银行 
贷款 申请 划分 成 安全 或 危险 。 这 种 分 析 可 以 帮助 我 们 更 好 地 全 面 理解 数据 。 许 多 分 类 和 预测 
方法 已 经 被 机 器 学 习 、 模 式 识别 和 统计 学 方面 的 研究 人 员 提 出 。 大 部 分 算法 是 内 存 驻 留 的 算 
法 ,通常 假定 数据 量 很 小 。 最 近 的 数据 挖 气 研 究 建立 在 这 些 工作 基础 上 ， 开 发 了 可 伸缩 的 分 
类 和 预测 技术 ， 能 够 处 理 大 的 、 驻 留 磁盘 的 数据 。 分 类 有 大 量 应 用 ， 包 括 欺诈 检测 、 目 标 营 
销 、 性 能 预测 、 制 造 和 医疗 诊断 。 

我 们 从 介绍 分 类 的 主要 思想 开始 (8. 1 节 )。 在 本 章 的 其 余部 分 ， 我们 将 学 习 数据 分 类 
的 基本 技术 ,包括 如 何 建立 决策 树 分 类 器 《8.2 节 ) 、 贝 叶 斯 分 类 器 (8.3 节 ) 和 基于 规则 
的 分 类 器 (8.4 节 )。8.5 节 讨论 如 何 评估 和 比较 不 同 的 分 类 方法 ， 给 出 准确 率 的 各 种 度量 ， 
以 及 得 到 可 靠 、 准 确 估计 的 各 种 技术 。 提 高 分 类 器 准确 率 的 方法 在 8. 6 节 介 绍 ， 包 括 数据 集 
是 类 不 平衡 的 情况 即 感 兴趣 的 主要 类 是 稀有 的 ) 。 


8.1 基本 概念 

在 8.1.1 节 ， 我们 介绍 分 类 的 概念 。8. 1. 2 节 描 述 分 类 作为 一 个 两 步 过 程 的 一 般 方法 。 
在 第 一 步 ， 我 们 基于 以 前 的 数据 建立 一 个 分 类 模型 。 在 第 二 步 ， 我 们 确定 该 模型 的 准确 率 是 
否 可 以 接受 ， 如 果 可 以 ， 我 们 就 使 用 该 模型 对 新 的 数据 进行 分 类 。 


8. 1.1 什么 是 分 类 

银行 贷款 员 需 要 分 析 数 据 ， 以 便 搞 清楚 哪些 贷款 申请 者 是 “安全 的 ”， 银 行 的 “风险 ” 
是 什么 。AllElectronics 的 销售 经 理 需 要 数据 分 析 ， 以 便 帮 助 他 猜测 具有 某 些 特征 的 顾客 是 否 
会 购买 新 的 计算 机 。 医 学 研究 人 员 希 望 分 析 乃 腺 癌 数 据 ， 以 便 预测 病人 应 当 接 受 三 种 具体 治 
和 疗 方案 中 的 哪 一 种 。 在 上 面 的 每 个 例子 中 ， 数 据 分 析 任 务 都 是 分 类 (classfication), MBE 





构造 一 个 模型 或 分 类 器 (classifer) 来 预测 类 标号 ， 如 贷款 申请 数据 的 “安全 ”或 “危险 "，， 


销售 数据 的 “是 ”或 “ 否 ”， 医 疗 数据 的 “治疗 方案 A”、“ 治 疗 方案 B” 或 “治疗 方案 C”。 
这 些 类 别 可 以 用 离散 值 表示 ， 其 中 值 之 间 的 次 序 没 有 意义 。 例 如 ， 可 以 使 用 值 1、2 和 3 表 
示 上 面 的 治疗 方案 A、B 和 C， 其 中 这 组 治疗 方案 之 间 并 不 存在 蕴涵 的 序 。 

假设 销售 经 理 希 望 预 测 一 位 给 定 的 顾客 在 AllElectronics 的 一 一 次 购物 期 间 将 花 多 少 钱 。 
数据 分 析 任务 就 是 数值 预测 (numeric prediction) 的 一 个 例子 ， PA A 
连续 值 函数 或 有 序 值 ， 而 不 是 类 标号 。 这 种 模型 是 预测 器 (predictor) 。 回 归 分 析 ( regres- 
sion analysis) 是 数值 预测 最 常用 的 统计 学 方法 ， 因 此 这 两 个 术语 常常 作为 同义词 使 用 ， 尽 
管 还 存在 其 他 数值 预测 方法 。 分 类 和 数值 预测 是 预测 问题 的 两 种 主要 类 拒 。 本 章 将 主要 讲述 
分 类 。 


8. 1.2 分 类 的 一 般 方法 
“如 何 进 行 分 类 ?” 数 据 分 类 是 一 个 两 阶段 过 程 ， 包括 学 习 阶 丢 (构建 分 关 模 型 》 和 分 
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类 阶段 〈( 使 用 模型 预测 给 定数 据 的 类 标号 ) 。 对 于 贷款 申请 数据 ， 该 过 程 显 示 在 图 8. 1 中 。 
(为 了 便于 解释 ， 数 据 被 简化 。 实 际 上 ， 我 们 可 能 需要 考虑 更 多 的 属性 。) 





name age income loan_decision 















Sandy Jones youth low risky 
Bill Lee youth low risky 
Caroline Fox middle_aged high safe 
Rick Field middle_aged low risky 
Susan Lake senior low safe 
Claire Phips senior medium safe 











Joe Smith middle_aged high safe 









IF age = youth THEN loan_decision = risky 

IF income = high THEN loan_decision = safe 

IF age= middle_aged AND income = low 
THEN loan_decision = risky 









, 
t 





a) 


分 类 规则 











(John Henry, middle_aged, low) 
Loan decision? 


name age income loan_decision 





Juan Bello senior low safe 
Sylvia Crest middle_aged low risky 
Anne Yee middle aged high safe 








有 风险 的 
b) 


图 8. 1 数据 分 类 过 程 a) 学 习 : 用 分 类 算法 分 析 训 练 数据 ， 这 里 ， 类 标号 属性 是 loan_ 
decision， 学 习 的 模型 或 分 类 器 以 分 类 规则 形式 提供 ! b) 分 类 : 检验 数据 用 于 评估 
分 类 规则 的 准确 率 ， 如 果 准 确 率 是 可 以 接受 的 ， 则 规则 用 于 新 的 数据 元 组 分 类 . 

在 第 一 阶段 ， 建 立 描述 预先 定义 的 数据 类 或 概念 集 的 分 类 器 。 这 是 学 习 阶 段 〈 或 训练 
阶段 ) ， 其 中 分 类 算法 通过 分 析 或 从 训练 集 “ 学 习 ” 来 构造 分 类 器 。 训 练 集 由 数据 库 元 组 和 
与 它们 相关 联 的 类 标号 组 成 。 元 组 下 用 维 属性 向 量 于 = (x;，x,，…，%) 表示 ， 分 别 描 
述 元 组 在 n 个 数据 库 属性 4, ，4: ，…，4, En 个 度量 ” 。 假 定 每 个 元 组 下 都 属于 一 个 预先 
定义 的 类 ， 由 一 个 称 为 类 标号 属性 (class label attribute) 的 数据 库 属性 确定 。 类 标号 属性 是 





O 每 个 属性 代表 互 的 一 个 “特征 ”。 因 此 ， 模 式 识别 文献 使 用 术语 特征 向 量 ， 而 不 是 属性 向 量 。 在 我 们 的 讨论 中 ， 
我 们 使 用 “属性 向 量 " ， 并 且 在 我 们 的 记号 中 ， 代 表 向 量 的 变量 用 粗 斜 体 ; 描述 向 量 的 度量 用 和 斜体， 例如 ，X = 


(xi, Xa, x3) 。 
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离散 值 的 和 无 序 的 。 它 是 分 类 的 (或 标 称 的 ) ， 因 为 每 个 值 充当 一 个 类 别 或 类 。 构 成 训练 数 
据 集 的 元 组 称 为 训练 元 组 ， 并 从 所 分 析 的 数据 库 中 随机 地 选取 。 在 谈 到 分 类 时 ， 数 据 元 组 也 
称 为 样本 、 实 例 、 数 据点 或 对 象 9。 

由 于 提供 了 每 个 训练 元 组 的 类 标号 ， 这 一 阶段 也 称 为 监督 学 习 (supervised leaming) 
( 即 分 类 器 的 学 习 在 被 告知 每 个 训练 元 组 属于 哪个 类 的 “监督 ”下 进行 的 ) 。 它 不 同 于 无 监 
督学 习 (unsupervised learning) (或 聚 类 ) ， 每 个 训练 元 组 的 类 标号 是 未 知 的， 并 且 要 学 习 的 
类 的 个 数 或 集合 也 可 能 事先 不 知道 。 例 如 ， 如 果 我 们 没有 用 于 训练 集 的 loan_decision 数据 ， 
则 我 们 可 以 使 用 聚 类 尝试 确定 “相似 元 组 的 组 群 "， 可 能 对 应 于 贷款 申请 数据 中 的 风险 组 
群 。 聚 类 是 第 10 章 和 第 11 章 的 主题 。 

分 类 过 程 的 第 一 阶段 也 可 以 看 做 学 习 一 个 映射 或 函数 y = 所 E) ， 它 可 以 预测 给 定 元 组 
站 的 类 标号 y。 在 这 种 观点 下 ， 我 们 希望 学 习 把 数据 类 分 开 的 映射 或 函数 。 在 典型 情况 下 ， 
该 映射 用 分 类 规则 、 决 策 树 或 数学 公式 的 形式 提供 。 在 我 们 的 例子 中 ， 该 映射 用 分 类 规则 表 
示 ， 这 些 规则 识别 贷款 申请 是 安全 的 还 是 有 风险 的 〈 见 图 8. la) 。 这 些 规 则 可 以 用 来 对 以 后 
的 数据 元 组 分 类 ， 也 能 对 数据 内 容 提 供 更 好 的 理解 。 它 们 也 提供 了 数据 的 压缩 表示 。 

“分 类 的 准确 率 如 何 ?” 在 第 二 阶段 (LE 8. 1b)， 使 用 模型 进行 分 类 。 首 先 评估 分 类 
器 的 预测 准确 率 。 如 果 我 们 使 用 训练 集 来 度量 分 类 器 的 准确 率 ， 则 评估 可 能 是 乐观 的 ， 因 为 
分 类 器 趋向 于 过 分 拟 合 (overfit) 该 数据 ( 即 在 学 习 期 间 ， 它 可 能 包含 了 训练 数据 中 的 某 些 
特定 的 异常 ， 这 些 异常 不 在 一 般 数据 集中 出 现 ) 。 因 此 ， 需 要 使 用 由 检验 元 组 和 与 它们 相关 
联 的 类 标号 组 成 的 检验 集 (test set) 。 它 们 独立 于 训练 元 组 ， 意 指 不 使 用 它们 构造 分 类 器 。 

分 类 器 在 给 定 检验 集 上 的 准确 率 (accuracy) 是 分 类 器 正确 分 类 的 检验 元 组 所 占 的 百 分 
比 。 每 个 检验 元 组 的 类 标号 与 学 习 模型 对 该 元 组 的 类 预测 进行 比较 。8. 5 节 介绍 了 多 种 估计 
分 类 器 准确 率 的 方法 。 如 果 认 为 分 类 器 的 准确 率 是 可 以 接受 的 ， 那 么 就 可 以 用 它 对 类 标号 未 
知 的 数据 元 组 进行 分 类 〈 这 种 数据 在 机 器 学 习 中 也 称 为 “未 知 的 ”或 “先前 未 见 到 的 ” 数 
据 ) 。 例 如 ， 可 以 使 用 图 8. la 中 通过 分 析 先 前 的 贷款 申请 数据 学 习 得 到 的 分 类 规则 来 批准 或 
拒绝 新 的 或 未 来 的 贷款 申请 人 。 


8.2 决策 树 归 纳 

决策 树 归 纳 是 从 有 类 标号 的 训练 元 组 中 学 习 决 策 树 。 决 策 树 (decision tree) 是 一 种 类 
似 于 流程 图 的 树 结构 ， 其 中 ， 每 个 内 部 结 点 非 树 叶 结 点 ) 表示 在 一 个 属性 上 的 测试 ， 每 
个 分 校 代表 该 测试 的 一 个 输出 ， 而 每 个 树叶 结 点 (或 终端 结 志 ) 存放 一 个 类 标号 。 树 的 最 
顶层 结 点 是 根 结 点 。 一 棵 典型 的 决策 树 如 图 8. 2 所 示 。 它 表示 概念 buys_computer， 即 它 预测 
AllElectronics 的 顾客 是 否 可 能 购买 计算 机 。 内 部 结 点 用 矩形 表示 ， 而 叶 结 点 用 椭圆 表示 。 有 
些 决策 权 算 法 只 产生 二 又 树 其中， 每 个 内 部 结 点 正好 分 丸 出 两 个 其 他 结 点 ) ， 而 另 一 些 决 
策 树 算法 可 能 产生 非 二 又 的 树 。 

“如 何 使 用 决策 树 分 类 ?” 给 定 一 个 类 标号 未 知 的 元 组 X， 在 决策 树 上 测试 该 元 组 的 属 
性 值 。 跟 踪 一 条 由 根 到 叶 结 点 的 路 径 ， 该 叶 结 点 就 存放 着 该 元 组 的 类 预测 。 决 策 树 容易 转换 
成 分 类 规则 。 

“为 什么 决策 树 分 类 器 如 此 流行 ?” 决 策 树 分 类 器 的 构造 不 需要 任何 领域 知识 或 参数 设 
置 ， 因 此 适合 于 探测 式 知识 发 现 。 决 策 树 可 以 处 理 高 维 数据 。 获 取 的 知识 用 树 的 形式 表示 是 





日 、 在 机 器 学 习 文献 中 ， 通 常 称 训练 元 组 为 训练 样本 。 本 书 中 ， 我 们 更 多 地 使 用 元 组 而 不 是 样本 。 
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直观 的 ， 并 且 容 易 被 人 理解 。 决 策 树 归 纳 的 学 习 和 分 类 步骤 是 简单 和 快速 的 。 一 般 而 言 ， 决 
策 树 分 类 器 具有 很 好 的 准确 率 。 然 而 ， 成 功 的 使 用 可 能 依赖 手头 的 数据 。 决 策 树 归纳 算法 已 
经 成 功 地 应 用 于 许多 应 用 领域 的 分 类 ， 如 医学 、 制 造 和 生产 、 金 融 分 析 、 天 文学 和 分 子 生 物 
学 。 决 策 树 是 许多 商业 规则 归纳 系统 的 基础 。 






Senior 


图 8.2 概念 buys_computer 的 决策 树 ， 指 出 AllElectronics 的 顾客 是 否 可 能 购买 计算 机 。 每 个 内 部 
CERI) 结 点 表示 一 个 属性 上 的 测试 ， 每 个 树叶 结 点 代表 一 个 类 ( buys_computer = yes, 


或 buys_computer = no) 


在 8.2.1 节 ， 我 们 介绍 学 习 决策 树 的 基本 算法 。 在 决策 树 构造 时 ， 使 用 属性 选择 度量 来 
选择 将 元 组 最 好 地 划分 成 不 同 的 类 的 属性 。 常 用 的 属性 选择 度量 在 8. 2. 2 节 给 出 。 决 策 树 建 
立时 ， 许 多 分 枝 可 能 反映 训练 数据 中 的 噪声 或 离 群 点 。 树 剪 枝 试图 识别 并 前 去 这 种 分 枝 ， 以 
提高 在 未 知 数据 上 分 类 的 准确 率 。 树 剪 枝 在 8. 2. 3 节 介 绍 。 大 型 数据 库 决策 树 归 纳 的 可 伸缩 
性 问题 在 8. 2. 4 节 讨 论 。8. 2. 5 节 提 供 一 种 决策 树 归 纳 的 可 视 化 挖掘 方法 。 


8.2.1 决策 树 归纳 


在 20 世纪 70 年 代 后 期 和 20 世纪 80 年 代 初 期 ， 机 器 学 习 研 究 人 员 J. Ross Quinlan 开发 
了 决策 树 算 法 ， 称 为 迁 代 的 二 分 器 (Iterative Dichotomiser, ID3 )。 这 项 工作 扩展 了 
E. B. Hunt, J. Marin 和 P. T. Stone 的 概念 学 习 系 统 。Quinlan 后 来 提出 了 C4.5 (D3 的 后 
继 ) ， 成 为 了 新 的 监督 学 习 算法 的 性 能 比较 基准 。1984 年 ， 多 位 统计 学 家 (L. Breiman, 
J. Friedman, R. Olshen 和 C.Stone) 出 版 了 著作 (Classification and Regression Trees 》 
(CART), 介绍 了 二 又 决策 树 的 产生 。ID3 和 CART 大 约 同 时 独立 地 发 明 , 但 是 从 训练 元 组 
学 习 决 策 树 却 采 用 了 类 似 的 方法 。 这 两 个 基础 算法 引发 了 决策 树 归纳 研究 的 旋风 。 
ID3 、C4. 5 和 CART 都 采用 贪心 〈 即 非 回溯 的 ) 方法 ， 其 中 决策 树 以 自 顶 向 下 递归 的 分 
治 方式 构造 。 大 多 数 决策 树 归纳 算法 都 沿用 这 种 自 顶 向 下 方法 ， 从 训练 元 组 集 和 它们 相关 联 
的 类 标号 开始 构造 决策 树 。 随 着 树 的 构建 ， 训 练 集 递归 地 划分 成 较 小 的 子 集 。 基 本 决策 树 算 
法 概括 在 图 8. 3 中 。 乍 一 看 ， 算 法 似乎 有 点 长 ， 但 不 要 担心 ， 它 是 相当 直截了当 的 。 算 法 的 
基本 策略 如 下 。 
© 用 三 个 参数 D，atiribute_list 和 Attribute_selection_method 调用 该 算法 。 我 们 称 D HB 
据 分 区 。 开 始 ， 它 是 训练 元 组 和 它们 相应 类 标号 的 完全 集 。 参 数 auribute_list 是 描述 
元 组 属性 的 列表 。Attribute_selection_method 指定 选择 属性 的 启发 式 过 程 ， 用 来 选择 可 
以 按 类 “最 好 地 ”区 分 给 定 元 组 的 属性 。 该 过 程 使 用 一 种 属性 选择 度量 ， 如 信息 增 
益 或 基尼 指数 (Cini index) 。 树 是 否 是 严格 的 二 又 树 由 属性 选择 度量 确定 。 某 些 属 
性 选择 度量 ， 如 基尼 指数 强制 结果 树 是 二 叉 树 。 其 他 度量 ， 如 信息 增益 并 非 如 此 ， 
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它 允 许多 路 划分 ( 即 从 一 个 结 点 生长 两 个 或 多 个 分 枝 )。 

。 树 从 单个 结 点 N 开始 ,NN 代表 D 中 的 训练 元 组 (步骤 1)。 

e 如 果 D 中 的 元 组 都 为 同一 类 ， 则 结 点 NN 变 成 树叶 ， 并 用 该 类 标记 它 (步骤 2 和 步骤 
3)。 注 意 ， 步 又 4 和 步骤 5 是 终止 条 件 。 所 有 的 终止 条 件 都 在 算法 的 最 后 解释 。 

。 否则 ， 算 法 调用 Autribute_selection_method 确定 分 裂 准则 (splitting criterion ) 。 分 裂 准 则 
通过 确定 把 D 中 的 元 组 划分 成 个 体 类 的 “最 好 ”方法 ， 告 诉 我 们 在 结 点 N 上 对 哪个 属 
性 进行 测试 〈 步 又 6) 。 分 裂 准则 还 告诉 我 们 对 于 选 定 的 测试 ， 从 结 点 入 生长 哪些 分 
枝 。 更 具体 地 说 ,分 裂 准则 指定 分 裂 属性 ， 并 且 也 指出 分 裂 点 (splitting- point) 或 分 
裂 子 集 (splitting subset) 。 理 想 情况 下 ， 分 裂 准 则 这 样 确定 ， 使 得 每 个 分 枝 上 的 输出 
分 区 都 尽 可 能 “ 纯 "。 一 个 分 区 是 纯 的 ， 如 果 它 的 所 有 元 组 都 属于 同一 类 。 换 言 之 ， 
如 果 根 据 分 裂 准 则 的 互 斥 输出 划分 D 中 的 元 组 ， 则 希望 结果 分 区 尽 可 能 纯 。 
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Wik: Generate_decision_ tree。 由 数据 分 区 D 中 的 训练 元 组 产生 决策 树 。 
输入 : 

。 数据 分 区 D, 训练 元 组 和 它们 对 应 类 标号 的 集合 。 

。 attribute_1ist, 候 选 属性 的 集合 。 


”3ttribute_selection_method, 一 个 确定 “最 好 地 ”划分 数据 元 组 为 个 体 类 的 分 裂 准则 的 过 程 。 
VEN URE (splitting attribute) 和 分 裂 点 或 划分 子 集 组 成 。 


输出 : 一 棵 决策 树 。 
方法 : 
D 创建 一 个 结 点 N; 


(2) if D 中 的 元 组 都 在 同一 类 Cc 中 then 

(3) 返回 N 作 为 叶 结 点 ,以 类 Cc 标记 ; 

(4) i£ attribut 1ist 为 空 then 

(5) 返回 N 作 为 叶 结 点 ， 标 记 为 p 中 的 多 数 类 ; /多 数 表决 

(6) 使 用 attribute selection method(D, attribute_list) , 找 出 “最 好 的 ” splitting criterion; 
(7) 用 splitting criterion 标 记 结 点 N; 


(8) if splitting attribute 是 离散 值 的 ,并 且 介 许多 路 划分 then /不 限于 二 叉 树 
《9) attribute _list-attribute_list-splitting attribute; // 删除 分 裂 属 性 
(10) for splitting_criterion 的 每 个 输出 j 

/划分 元 组 并 对 每 个 分 区 产生 子 树 
C11) 设 D, 是 Dp 中 满足 输出 j 的 数据 元 组 的 集合 ; /A 一 个 分 区 


(12) if DD, 为 空 then 

(13) AAAS BLES AN, PIC A OFF BEE ; 

(14) else 加 一 个 由 Generate decision tree (D; attribute 1ist) 返 回 的 结 点 到 N; 
endfor 


(15) 返回 N; 








图 8.3 由 训练 元 组 归纳 决策 树 的 基本 算法 
© 结 点 入 用 分 裂 准 则 标记 作为 结 点 上 的 测试 (步骤 7) 。 对 分 裂 准 则 的 每 个 输出 ， 由 结 点 
六 生长 一 个 分 枝 。 九 中 的 元 组 据 此 进行 划分 (步骤 10 ~11)。 有 三 种 可 能 的 情况 ， 如 
图 8. 4 所 示 。 设 4 是 分 裂 属性 。 根 据 训 练 数据 ，4 具有 5 个 不 同 值 la, a,，…, alo 


日 、 结 点 N 上 类 标号 训练 元 组 的 分 区 是 元 组 的 集合 ， 用 树 处 理 时 ， 这 些 元 组 沿 着 从 根 到 结 点 N 的 路 径 到 N。 有 时 ， 
文献 上 称 该 集合 为 结 点 N 上 的 元 组 族 (family) 。 我 们 称 该 集合 为 “ 结 点 N 代表 的 元 组 "， 或 简单 地 称 它 为 “ 结 
点 的 元 组 ” 。 大 部 分 实现 在 结 点 上 存放 指向 这 些 元 组 的 指针 ， 而 不 是 实际 元 组 。 
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_ 分 区 情况 例子 
> Á 2 > 2 % 
a a; a, ~ f = 名 a z 多 
a) / | 、\ A / ; \ 
Asxsplit_point A>split_point =42 000 >42 000 
b) Z N 7 N 
Gies?) color E {red, green}? 
yes tio yes no 
o| 7 \ 














图 8.4 根据 分 裂 准则 划分 元 组 的 三 种 可 能 性 ， 每 个 都 给 出 了 例子 。 设 4 是 分 裂 属 性 : a) 如 
果 4 是 离散 值 的 ， 则 对 4 的 每 个 已 知 值 产生 一 个 分 枝 ; b) 如 果 4 是 连续 值 的 ， 则 产 
生 两 个 分 枝 ， 分别 对 应 于 A 志 splii_ point 和 A4>split_point; c) WR A 是 离散 值 的 ， 并 
且 必 须 产生 二 叉 树 ， 则 测试 形 如 Ae 5,。 ， 其 中 S, 是 4 的 分 裂 子 集 

(1) 4 是 离散 值 的 : 在 这 种 情况 下 ， 结 点 NN 的 测试 输出 直接 对 应 于 4 的 已 知 值 。 对 A 
的 每 个 已 知 值 w 创建 一 个 分 枝 ， 并 且 用 该 值 标记 ( 见 图 8.4a)。 分 区 D, 是 D 中 4 上 取 值 为 
a, 的 类 标记 元 组 的 子 集 。 因 为 在 一 个 给 定 的 分 区 中 的 所 有 元 组 都 具有 相同 的 4 值 ， 所 以 在 以 后 
的 元 组 划分 中 不 需要 再 考虑 4。 因 此 ， 把 4 从 属性 列表 attribute_list 中 删除 (步骤 8 ~ 步骤 9)。 

(2) 4 是 连续 值 的 : 在 这 种 情况 下 ， 结 点 N 的 测试 有 两 个 可 能 的 输出 ， 分 别 对 应 于 条 
{F A <split_ point 和 A >split_ poin, FEP split_ point 是 分 裂 点 ， 作 为 分 裂 准 则 的 一 部 分 由 Attrib- 
ute_selection_method 返回 。( 在 实践 中 ,分裂 点 a 通常 取 4 的 两 个 已 知 相 邻 值 的 中 点 ， 因 此 可 能 
不 是 训练 数据 中 4 的 存在 值 .) 从 六 生长 出 两 个 分 枝 ， 并 按 上 面 的 输出 标记 ( 见 图 8.4b) 。 划 
分 元 组 ， 使 得 刀 包含 DP A<split_ point 的 类 标记 元 组 的 子 集 ， 而 D, 包含 其 他 元 组 。 

(3) 4 是 离散 值 并 且 必 须 产 生 二 叉 树 〈 由 属性 选择 度量 或 所 使 用 的 算法 指出 ) : 在 结 点 
六 的 测试 形 如 “4eS?”， 其 中 $, 是 4 的 分 裂 子 集 ， 由 Attribute_selection_method 作为 划分 准 
则 的 一 部 分 返回 。 它 是 4 的 已 知 值 的 子 集 。 如 果 给 定 元 组 有 4 的 值 为 a;， 并且 w e Si ， 则 在 
结 点 N 上 的 测试 条 件 满足 。 从 WN 生长 出 两 个 分 枝 ( 见 图 8.4c)。 根 据 约定 ，WN 的 左 分 枝 标记 
为 yes ， 使 得 D, 对 应 于 D 中 满足 测试 条 件 的 类 标记 元 组 的 子 集 。WN 的 右 分 枝 标记 为 we， 使 
得 D, 对 应 于 D 中 不 满足 测试 条 件 的 类 标记 元 组 的 子 集 。 
© XF D 的 每 个 结果 分 区 D, 上 的 元 组 ,算法 使 用 同样 的 过 程 递归 地 形成 决策 树 ( 步 又 14)。 

。 递归 划分 步 又 仅 当下 列 终 止 条 件 之 一 成 立时 停止 : 

(1) 分 区 D (在 结 点 NN 提供 ) 的 所 有 元 组 都 属于 同一 个 类 (步骤 2 和 步骤 3)。 

(2) 没有 剩余 属性 可 以 用 来 进一步 划分 元 组 (步骤 4)。 在 此 情况 下 ,使 用 多 数 表决 
(步骤 5)。 这 涉及 将 N 转换 成 树叶 ， 并 用 D 中 的 多 数 类 标记 它 。 另 外 ， 也 可 以 存放 结 点 元 
组 的 类 分 布 。 

(3) 给 定 的 分 梳 没 有 元 组 ， 即 分 区 D, 为 空 (步骤 12)。 在 这 种 情况 下 ， 用 D 中 的 多 数 
类 创建 一 个 树叶 (步骤 13) 。 

。 返回 结果 决策 树 (49815). 
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给 定 训 练 集 D， 算 法 的 计算 复杂 度 为 0(nx |D| xiog( |D|)), HF n BHR D 中 元 
组 的 属性 个 数 ，|D | Æ D 中 的 训练 元 组 数 。 这 意味 以 | D | 个 元 组 产生 一 棵 树 的 计算 开销 最 
多 为 nx |D]| xilog( 1D |)。 证明 留 给 读者 作为 习题 。 

决策 树 归纳 的 增 量 版 本 也 已 经 提出 。 当 给 定 新 的 训练 数据 时 ， 这 些 算法 重 构 从 先前 训练 
数据 学 习 得 到 的 决策 树 ， 而 不 是 从 头 开始 学 习 一 棵 新 树 。 

决策 算法 之 间 的 差别 包括 在 创建 树 时 如 何 选择 属性 〈( 见 8.2.2 节 ) 和 用 于 剪 枝 的 机 制 
( 见 8.2.3 节 )。 上 面 介绍 的 基本 算法 对 于 树 的 每 一 层 ， 需 要 扫描 一 遍 D 中 的 元 组 。 在 处 理 
大 型 数据 库 时 ， 这 可 能 导致 很 长 的 训练 时 间 和 内 存 不 足 。 关 于 决策 树 妇 纳 的 可 伸缩 性 的 改进 
在 8.2.4 节 讨 论 。8.2.5 节 介 绍 一 种 构建 决策 树 的 可 视 化 的 交互 方法 。 关 于 从 决策 树 提取 规 
则 的 讨论 在 8.4.2 节 讨 论 基于 规则 的 分 类 时 给 出 。 


8. 2.2 属性 选择 度量 


属性 选择 度量 是 一 种 选择 分 裂 准则 ， 把 给 定 类 标记 的 训练 元 组 的 数据 分 区 D“ 最 好 地 ” 
划分 成 单独 类 的 启发 式 方法 。 如 果 我 们 根据 分 裂 准则 的 输出 把 D 划分 成 较 小 的 分 区 ， 理 想 
情况 是 ， 每 个 分 区 应 当 是 纯 的 〈 即 落 在 一 个 给 定 分 区 的 所 有 元 组 都 属于 相同 的 类 ) 。 从 概念 
上 讲 , “最 好 的 ”分 裂 准 则 是 导致 最 接近 这 种 情况 的 划分 。 属 性 选择 度量 又 称 为 分 裂 规 则 ， 
因为 它们 决定 给 定 结 点 上 的 元 组 如 何 分 裂 。 

属性 选择 度量 为 描述 给 定 训 练 元 组 的 每 个 属性 提供 了 秩 评定 。 具 有 最 好 度量 得 分 的 属 
性 被 选 为 给 定 元 组 的 分 裂 属性 。 如 果 分 裂 属性 是 连续 值 的 ， 或 者 如 果 我 们 限于 构造 二 又 树 ， 
则 一 个 分 用 点 或 一 个 分 列子 集 也 必须 作为 分 裂 准 则 的 一 部 分 返回 。 为 分 区 D 创建 的 树 结 点 
用 分 裂 准则 标记 ， 从 准则 的 每 个 输出 生长 出 分 枝 ， 并 且 相 应 地 划分 元 组 。 本 节 介绍 三 种 常用 
的 属性 选择 度量 一 一 信 息 增 益 、 增 益 率 和 基尼 指数 (Cini 指数 ) 。 

这 里 使 用 的 符号 如 下 。 设 数据 分 区 D 为 标记 类 元 组 的 训练 集 。 假 定 类 标号 属性 具有 m 
AARRE, EXT m 个 不 同 的 类 C,(i=1,，…，m)。 设 CoE D 中 CC; 类 元 组 的 集合 ，1D | 
和 | Co | 分 别 是 D 和 Co 中 元 组 的 个 数 。 

1. 信息 增益 

ID3 使 用 信息 增益 作为 属性 选择 度量 。 该 度量 基于 香农 (Claude Shannon) 在 研究 消息 
的 值 或 “信息 内 容 ” 的 信息 论 方面 的 先驱 工作 。 设 结 点 NN 代表 或 存放 分 区 D 的 元 组 。 选 择 
具有 最 高 信息 增益 的 属性 作为 结 点 的 分 裂 属 性 。 该 属性 使 结果 分 区 中 对 元 组 分 类 所 需要 
的 信息 量 最 小 ， 并 反映 这 些 分 区 中 的 最 小 随机 性 或 “不 纯 性 ”。 这 种 方法 使 得 对 一 个 对 象 分 
类 所 需要 的 期 望 测试 数目 最 小 ， 并 确保 找到 一 棵 简单 的 (但 不 必 是 最 简单 的 ) 树 。 

Xt D 中 的 元 组 分 类 所 需要 的 期 望 信息 由 下 式 给 出 : 


Info(D) =- 2, Piloge (Pp:) (8.1) 


其 中 , p 是 D 中 任意 元 组 属于 类 C 的 非 零 概率 ， 并 用 | Co | 71D | 估计。 使 用 以 2 为 底 的 对 
数 函数 是 因为 信息 用 二 进位 编码 。7 哆 (了 ) 是 识别 D 中 元 组 的 类 标号 所 需要 的 平均 信息 量 。 注 
意 ， 此 时 我 们 所 有 的 信息 只 是 每 个 类 的 元 组 所 占 的 百分比 。Info(D) IA D R (entropy). 
现在 ,假设 我 们 要 按 某 属 性 A 划分 D 中 的 元 组 ， 其 中 属性 4 根据 训练 数据 的 观测 具有 ， 
个 不 同 值 fa, a, 0, a,l) 。 如 果 4 是 离散 值 的 ， 则 这 些 值 直接 对 应 于 4 上 测试 的 "个 输 








名 ”依赖 于 度量 ， 最 高 或 最 低 得 分 被 选 为 最 好 的 〈 即 某 些 度量 力求 最 大 化 ， 而 另外 的 度量 力求 最 小 化 ) 。 
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出 。 可 以 用 属性 4 将 D 划分 为 vo 个 分 区 或 子 集 1D, D, --, D), HH, D 包含 D 中 的 
元 组 ， 它 们 的 4 值 为 a;。 这 些 分 区 对 应 于 从 结 点 六 生长 出 来 的 分 村。 理想 人 情况 下 ， 我 们 希 
望 该 划分 产生 元 组 的 准确 分 类 。 即 我 们 希望 每 个 分 区 都 是 纯 的 。 然 而 ， 这些 分 区 多 半 是 不 纯 
的 (例如 ， 分 区 可 能 包含 来 自 不 同类 而 不 是 来 自 单个 类 的 元 组 )。( 在 此 划分 之 后 ) 为 了 得 
到 准确 的 分 类 ， 我 们 还 需要 多 少 信息 ? 这 个 量 由 下 式 度 量 : 


Info,(D) = > 2 x Info( D;) 





(8.2) 





项 2 充当 第 j PSP AVALIE. Info, (D) 是 基于 按 4 划分 对 也 的 元 组 分 类 所 需要 的 期 望 信 


息 。 需 要 的 期 望 信息 越 小 ， 分 区 的 纯度 越 高 。 

信息 增益 定义 为 原来 的 信息 需求 〈 仅 基于 类 比例 ) 与 新 的 信息 需求 (对 4 划分 后 ) 之 
间 的 差 。 即 

Gain(A) = Info(D) - Info,(D) (8.3) 

Raz, Goin(A) 告诉 我 们 通过 4 上 的 划分 我 们 得 到 了 多 少 。 它 是 知道 4 的 值 而 导致 的 信 
息 需 求 的 期 望 减少 。 选 择 具 有 最 高 信息 增益 Gain(A) 的 属性 A 作为 结 点 N 的 分 裂 属性 。 这 
等 价 于 在 “能 做 最 佳 分 类 ”的 属性 4 上 划分 ， 使 得 完成 元 组 分 类 还 需要 的 信息 最 小 〈 即 最 
小 化 Info,(D)) « 

例 8.1 使 用 信息 增益 进行 决策 树 归 纳 。 表 8. 1 给 出 了 一 个 标记 类 的 元 组 的 训练 集 D， 随 
机 地 从 AllElectronics 顾客 数据 库 中 选取 。( 该 数据 取 自 [Qui86] 。 在 这 个 例子 中 ， 每 个 属性 都 
是 离散 值 的 ， 连 续 值 属性 已 经 被 泛 化 。) 类 标号 属性 buys_computer 有 两 个 不 同 值 ( 即 | yes, 
no}), ， 因 此 有 两 个 不 同 的 类 (Bl m=2)。 设 类 C 对 应 于 yes, TIX C, 对 应 于 no。 类 yes 有 9 
个 元 组 ， 类 no 有 5 个 元 组 。 为 刀 中 的 元 组 创建 CAR) 结 点 W。 为 了 找 出 这 些 元 组 的 分 裂 准 则 ， 
必须 计算 每 个 属性 的 信息 增益 。 首 先 使 用 (8.1) sk, HAN D 中 元 组 分 类 所 需要 的 期 望 信息 ; 


“<_9lo 2 _ Sigs 5 = 他 
Info(D) = 过 logz 14 141082 14 = 0. 940 位 


表 8. 1 AllElectronics 顾客 数据 库 标记 类 的 训练 元 组 























RID age income student credit_rating Class: buys_computer 
1 youth high no fair no 
2 youth high no excellent no 
3 middle_aged high no fair yes 
4 senior medium no fair yes 
5 senior low yes fair yes 
6 senior low yes excellent no 
7 middle_aged low yes excellent yes 
8 youth medium no fair no 
9 youth low yes fair yes 
10 senior medium yes fair yes 
11 youth medium yes excellent yes 
12 middle_aged medium no excellent yes 
13 middle_aged high yes fair yes 
14 senior medium no excellent no 
Oo 人 CC | erceent | nm 


下 一 步 ， 需 要 计算 每 个 属性 的 期 望 信息 需求 。 从 属性 age 开始 。 需 要 对 age 的 每 个 类 考 
察 yes 和 no 元 组 的 分 布 。 对 于 age MIE “youth”, 4 2+ yes 元 组 ，3 个 no 元 组 。 对 于 类 
“middle_aged”， 有 4 个 yes 元 组 , 0 个 mo 元 组 。 对 于 类 “senior"”， 有 3 个 yes 元 组 ,2 个 no 元 
组 。 使 用 (8.2) 式 ， 如 果 元 组 根据 age 划分 ， 则 对 D 中 的 元 组 进行 分 类 所 需要 的 期 望 信 息 为 ， 
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4, 4 0, 0 
+14 * (- Glee 4 -48 4 ) 





= 0. 694 位 

因此 ， 这 种 划分 的 信息 增益 
Gain(age) = Info(D) - Info,,,(D) = 0.940 -0.694 = 0.246 位 

类 似 地 ， 可 以 计算 Gain ( income) =0. 029 f, Gain (student) =0. 151 位 ，Gain( credit_rat- 
ing) =0. 048 位 。 由 于 age 在 属性 中 具有 最 高 的 信息 增益 ， 所 以 它 被 选 作 分 烈属 性 。 结 点 
N 用 age 标记 ,并且 每 个 属性 值 生长 出 一 个 分 枝 。 然 后 元 组 据 此 划分 ， 如 图 8. 5 所 示 。 注 
意 ， 落 在 分 区 age = “middle_aged” 的 元 组 都 属于 相同 的 类 。 由 于 它们 都 属于 类 “yes”， 
所 以 要 在 该 分 枝 的 端点 创建 一 个 树叶 ， 并 用 “yes” 标 记 。 算 法 返回 的 最 终 决 策 树 如 
图 8.2 所 示 。 a 
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图 8.5 属性 age 具有 最 高 信息 增益 ， 因 此 成 为 决策 树 根 结 点 的 分 裂 属性 。age 的 每 个 输出 生 
出 分 枝 ， 元 组 据 此 相应 地 划分 


“但 是 ， 如 何 计算 连续 值 属性 的 信息 增益 ?” 假 设 属性 4 是 连续 值 的 ， 而 不 是 离散 值 的 。 
(例如 ， 假 定 有 属性 age 的 原始 值 ， 而 不 是 该 属性 的 离散 化 版 本 。) 对 于 这 种 情况 ， 必 须 确定 
4 的 “最 佳 ”分 裂 点 ， 其 中 分 裂 点 是 4 LORH. 

首先 ， 将 4 的 值 按 递增 序 排序 。 典 型 地 ， 每 对 相 邻 值 的 中 点 被 看 做 可 能 的 分 裂 点 。 这 
样 ， 给 定 4 的 "个 值 ， 则 需要 计算 -1 个 可 能 的 划分 。 例 如 ，4 的 值 w 和 a;,; 之 间 的 中 

a, + Qi 

2 
WR A 的 值 已 经 预先 排序 ， 则 确定 4 的 最 佳 划 分 只 需要 扫描 一 遍 这 些 值 。 对 于 4 的 每 个 可 能 
FRA, R Infos(D) ， 其 中 分 区 的 个 数 为 2， 即 (8.2) 式 中 v=2 (或 j=1, 2)。4 具有 
最 小 期 望 信息 需求 的 点 选 做 4 的 分 裂 点 。D' 是 满足 4 三 split_ poin 的 元 组 集合 ， 而 D, 是 满足 


(8.4) 
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A > split_ point 的 元 组 集合 。 
2. 增益 率 
信息 增益 度量 偏向 有 具有 许多 输出 的 测试 。 换 句 话 说 ， 它 倾向 于 选择 具有 大 量 值 的 属性 。 
例如 ， 考 虑 充当 唯一 标识 符 的 属性 ， 如 product_ID, Æ product_ID 的 划分 将 导致 大 量 分 区 
(与 值 一 样 多 ) ， 每 个 只 包含 一 个 元 组 。 由 于 每 个 分 区 都 是 纯 的 ， 所 以 基于 该 划分 对 数据 集 
D 分 类 所 需要 的 信息 为 Mfo podu (D) =0。 因 此 ， 通 过 对 该 属性 的 划分 得 到 的 信息 增益 最 
大 。 显 然 ， 这 种 划分 对 分 类 没有 用 。 
ID3 的 后 继 C4. 5 使 用 一 种 称 为 增益 率 (gain ratio) 的 信息 增益 扩充 ， 试 图 克服 这 种 偏 
倚 。 它 用 “分 裂 信息 (split information) ” 值 将 信息 增益 规范 化 。 分 裂 信 息 类 似 于 Info (D)， 
定义 如 下 
Splitinfo,(D) =- > py x log, (421) (8.5) 
该 值 代表 由 训练 数据 集 D 划分 成 对 应 于 属性 4 测试 的 > 个 输出 的 "个 分 区 产生 的 信息 。 注 
意 ， 对 于 每 个 输出 ， 它 相对 于 D 中 元 组 的 总 数 考虑 具有 该 输出 的 元 组 数 。 它 不 同 于 信息 增 
益 ， 信 息 增益 度量 关于 分 类 基于 同样 划分 的 所 获得 的 信息 。 增 益 率 定义 为 
GrianRate(A) = Suis. (Dy (8.6) 
选择 具有 最 大 增益 率 的 属性 作为 分 裂 属 性 。 然 而 需要 注意 的 是 ， 随 着 划分 信息 趋向 于 0， 该 
比率 变 得 不 稳定 。 为 了 避免 这 种 情况 ， 增 加 一 个 约束 : 选取 的 测试 的 信息 增益 必须 较 大 ， 至 
少 与 考察 的 所 有 测试 的 平均 增益 一 样 大 。 
例 8.2 属性 income 的 增益 率 的 计算 。 属 性 income 的 测试 将 表 8. 1 中 的 数据 划分 成 3 
个 分 区 ， 即 low, medium 和 high, HL 4, 6 和 4 个 元 组 。 为 了 计算 income 的 增益 率 ， 
首先 使 用 (8.5) RR 


SplitInfo,(D) =- 





fg * log f- É x log É - É x log $ = 1.557 

由 例 8.1, Gain (income) =0.029, Fuk, GainRatio (income) =0. 029/1. 557 =0.019, m 
3. 基尼 指数 
基尼 指数 (Gini index) 在 CART 中 使 用 。 使 用 上 面 介绍 的 概念 ， 基 尼 指 数 度量 数据 分 


区 或 训练 元 组 集 D 的 不 纯度 ， 定 义 为 
Gini(D) = 1 - > Pi (8.7) 


Ht, p, 是 D 中 元 组 属于 C, 类 的 概率 ， 并 用 | C; , | ID | hit, Sm 个 类 计算 和 。 

基尼 指数 考虑 每 个 属性 的 二 元 划分 。 首 先 考虑 4 是 离散 值 属性 的 情况 ， 其 中 4 具有 wv 个 
不 同 值 fo ，a;，…，a,| 出 现在 D 中 。 为 了 确定 4 上 最 好 的 二 元 划分 ， 考 察 使 用 4 的 已 知 
值 形成 的 所 有 可 能 子 集 。 每 个 子 集 S, 可 以 看 做 属性 A 的 一 个 形 如 “4 e 8$,?” 的 二 元 测试 。 
给 定 一 个 元 组 ， 如 果 该 元 组 4 的 值 出 现在 S, 列 出 的 值 中 ， 则 该 测试 满足 。 如 果 4 具有 v4 个 
可 能 的 值 ， 则 存在 2 个 可 能 的 子 集 。 例 如 ， 如 果 income 具有 3 个 可 能 的 值 | low, medium, 
high} ， 则 可 能 的 子 集 是 | low, medium, high}, {low, medium}, | low, high} 、 | medium, 
high}, {low} , {medium}. {hight 和 |}. RAHI |low, medium, hight 和 空 集 ， 因 
为 从 概念 上 讲 ， 它 们 不 代表 任何 分 裂 。 因 此 ， 基 于 4 的 二 元 划分 ,存在 2 -2 种 形成 数据 集 
D 的 两 个 分 区 的 可 能 方法 。 

当 考 虑 二 元 划分 裂 时 ， 计 算 每 个 结果 分 区 的 不 纯度 的 加 权 和 。 例 如 ， 如 果 4 的 二 元 划分 
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将 DD 划分 成 D, 和 DP,， 则 给 定 该 划分 ，D 的 基尼 指数 为 
Gini,(D) = a Gini(D,) + 2a 
对 于 每 个 属性 ， 考 虑 每 种 可 能 的 二 元 划分 。 对 于 离散 值 属性 ， 选 择 该 属性 产生 最 小 基尼 指数 
的 子 集 作为 它 的 分 裂 子 集 。 
对 于 连续 值 属性 ， 必 须 考虑 每 个 可 能 的 分 裂 点 。 其 策略 类 似 于 上 面 介绍 的 信息 增益 所 使 
用 的 策略 ， 其 中 将 每 对 〈 排 序列 后 的 ) 相 邻 值 的 中 点 作为 可 能 的 分 裂 点 。 对 于 给 定 的 ( 连 
续 值 ) 属性 ， 选 择 产 生 最 小 基尼 指数 的 点 作为 该 属性 的 分 裂 点 。 注 意 ， 对 于 4 的 可 能 分 裂 
点 split_poin, D, 是 DD 中 满足 A<split_poin 的 元 组 集合 ,而 D, 是 D 中 满足 4 > split_ point 的 
元 组 集合 。 
对 离散 或 连续 值 属性 4 的 二 元 划分 导致 的 不 纯度 降低 为 
AGini(A) = Gini(D) - Gini,(D) (8.9) 
最 大 化 不 纯度 降低 〈 或 等 价 地 ， 具 有 最 小 基尼 指数 ) 的 属性 选 为 分 裂 属 性 。 该 属性 和 它 的 
DATE (对 于 离散 值 的 分 裂 属 性 ) 或 分 裂 点 〈 对 于 连续 值 的 分 裂 属 性 ) 一 起 形成 分 裂 
准则 。 
例 8.3 使 用 基尼 指数 进行 决策 树 归 纳 。 设 D 是 表 8.1 的 训练 数据 ， 其 中 9 个 元 组 属于 
类 buys_computer = yes, MIAR 5 个 元 组 属于 类 buys_computer =no, Xt D 中 元 组 创建 (OR) 结 
点 入。 首先 使 用 基尼 指数 (8.7) ARITA D 的 不 纯度 : 


Gini(D) =1- (2) - (2) = 0.459 
为 了 找 出 DD 中 元 组 的 分 裂 准 则 ， 需 要 计算 每 个 属性 的 基尼 指数 。 从 属性 income 开始 ， 
并 考虑 每 个 可 能 的 分 列子 集 。 考 虚 子 集 {low，medium} 。 这 将 导致 10 个 满足 条 件 “income 
e {low，medium1 ”的 元 组 在 分 区 D, 中 。D 中 的 其 余 4 个 元 组 将 指派 到 分 区 D, 中 。 基 于 该 


划分 计算 出 的 基尼 指数 值 为 
Gitkinconee sw medani (D) = P Gini(D, ) + $ Gini(D,) 


0 2 2 2 
=al- (io) - (io) eal- (4) - (FY) 
= 0. 443 
= GINi income e | high! (D) 
类 伏地 ， 用 其 余子 集 划 分 的 基尼 指数 值 是 : 0.458 (FE |low, high) 和 | medium!) 和 
0.450 ( 子 集 {| medium, high} 和 {low|)。 因 此 ， 属性 income 的 最 好 二 元 划分 在 | low, 
medium} (或 {high|) 上 ， 因 为 它 最 小 化 基尼 指数 。 评 估 属 性 age， 得 到 {| youth, senior} 
(或 | middle_aged|) 为 age 的 最 好 划分 ， 具 有 基尼 指数 0.375; 属性 student 和 credit_rating 
都 是 二 元 的 ， 分 别 具 有 基尼 指数 值 0. 367 和 0. 429, 
因此 ， 属 性 age 和 分 裂 子 集 | youth, senior} 产生 最 小 的 基尼 指数 ,不 纯度 降低 
0. 459 -0. 357 = 0. 102。 二 元 划分 “age e | youth, senior} ?” 导 致 D 中 元 组 的 不 纯度 降低 
最 大 ， 并 返回 作为 分 裂 准则 。 结 点 N 用 该 准则 标记 ， 从 它 生 长 出 两 个 分 枝 ， 并 且 相 应 地 
划分 元 组 。 a 
4. 其 他 属性 选择 度量 
本 节 并 不 打算 穷 举 属性 选择 度量 。 我 们 已 经 展示 了 建立 决策 树 常 用 的 三 种 度量 。 这 些 度 
量 并 非 无 偏 的 。 正 如 我 们 看 到 的 ， 信 息 增益 偏向 于 多 值 属性 。 尽 管 增益 率 调整 了 这 种 偏 倚 ， 








Gini( D,) (8.8) 
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但 是 它 倾向 于 产生 不 平衡 的 划分 ， 其 中 一 个 分 区 比 其 他 分 区 小 得 多 。 基 尼 指 数 偏向 于 多 值 属 
性 ， 并 且 当 类 的 数量 很 大 时 会 有 困难 。 它 还 倾向 于 导致 相等 大 小 的 分 区 和 纯度 。 尽 管 是 有 偏 
的 ， 但 是 这 些 度量 在 实践 中 产生 相当 好 的 结果 。 

已 经 提出 了 其 他 一 些 属性 选择 度量 。 市 场 上 流行 的 一 种 决策 树 算 法 CHAID 使 用 一 种 基 
于 统计 X 检验 的 属性 选择 度量 。 其 他 度量 包括 C-SEP (在 某 些 情况 下 ， 它 比 信息 增益 和 基 
尼 指 数 的 性 能 好 ) 和 G- 统 计量 (一 种 信息 论 度量 ， 非 常 近似 于 XX 分 布 ) 。 

基于 最 小 描述 长 度 (Minimum Description Length, MDL) 原理 的 属性 选择 度量 具有 最 小 
偏向 多 值 属性 的 偏 倚 。 基 于 MDL 的 度量 使 用 编码 技术 将 “最 佳 ” 决 策 树 定义 为 需要 最 少 二 
进位 的 树 : (1) 对 树 编码 ; (2) 对 树 的 异常 〈 即 不 正确 地 被 树 分 类 的 情况 ) 编码 。 它 的 基 
本 思想 是 : 首选 最 简单 的 解 。 

其 他 属性 选择 度量 考虑 多 元 划分 ( 即 元 组 的 划分 基于 属性 的 组 合 而 不 是 单个 属性 )。 例 
WM, CART 系统 可 以 基于 属性 的 线性 组 合 发 现 多 元 划分 。 多 元 划分 是 一 种 属性 (或 特征 ) 构 
造 ， 其 中 新 属性 基于 已 有 的 属性 创建 。( 属性 构造 作为 数据 变换 的 一 种 形式 ， 已 经 在 第 3 章 
讨论 过 。) 这 里 提 到 的 其 他 度量 已 经 超出 了 本 书 的 范围 。 其 他 的 参考 文献 在 本 章 结尾 的 文献 
注释 (8.9 节 ) 中 给 出 。 

“ 哪 种 属性 选择 度量 最 好 ?” 所 有 的 度量 都 具有 某 种 偏 倚 。 已 经 证 明 ， 决 策 树 归纳 的 时 
间 复杂 度 一 般 随 树 的 高 度 指数 增加 。 因 此 ， 倾 向 于 产生 较 浅 的 树 (例如 ， 多 路 划分 而 不 是 


- 二 元 划分 ， 促 成 更 平衡 的 划分 ) 的 度量 可 能 更 可 取 。 然 而 ， 某 些 研究 发 现 ， 较 浅 的 树 趋向 


于 具有 大 量 树叶 和 较 高 的 错误 率 。 尽 管 有 一 些 比 较 研究 ， 但 是 并 未 发 现 一 种 度量 显著 优 于 其 
他 度量 。 大 部 分 度量 都 产生 相当 好 的 结果 。 


8.2.3 树 剪 枝 


在 决策 树 创建 时 ， 由 于 数据 中 的 噪声 和 离 群 点 ， 许 多 分 枝 反 映 的 是 训练 数据 中 的 异常 。 
剪 枝 方 法 处 理 这 种 过 分 拟 合 数据 问题 。 通 常 ， 这 种 方法 使 用 统计 度量 剪 掉 最 不 可 靠 的 分 枝 。 
一 棵 未 剪 枝 的 树 和 它 剪 枝 后 的 版 本 显示 在 图 8. 6 中 。 剪 枝 后 的 树 更 小 、 更 简单 ， 因 此 更 容易 
理解 。 通 常 ， 它 们 在 正确 地 对 独立 的 检验 集 分 类 时 比 未 剪 枝 的 树 更 快 、 更 好 。 





图 8. 6 ”一 棵 未 剪 枝 的 决策 树 和 它 剪 枝 后 的 版 本 
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“如 何 进行 树 剪 枝 ?” 有 两 种 常用 的 剪 枝 方法 : FEB MALS BAK 

在 先 剪 梳 (prepruning) 方法 中 ， 通 过 提前 停止 树 的 构建 〈 例 如 ， 通 过 决定 在 给 定 的 结 
点 不 再 分 裂 或 划分 训练 元 组 的 子 集 ) 而 对 树 “ 剪 枝 ” 。 一 旦 停止 ， 结 点 就 成 为 树 吐 。 该 树叶 
可 以 持 有 子 集 元 组 中 最 频繁 的 类 ， 或 这 些 元 组 的 概率 分 布 。 

在 构造 树 时 ， 可 以 使 用 诸如 统计 显著 性 、 信 息 增 益 、 基 尼 指 数 等 度量 来 评估 划分 的 优 
劣 。 如 果 划 分 一 个 结 点 的 元 组 导致 低 于 预定 义 阐 值 的 划分 ， 则 给 定子 集 的 进一步 划分 将 停 
止 。 然而 ,选取 一 个 适当 的 立 值 是 困难 的 。 高 阐 值 可 能 导致 过 分 简化 的 树 ， 而 低 阐 值 可 能 使 
得 树 的 简化 太 少 。 

第 二 种 更 常用 的 方法 是 后 剪 枝 〈postpruning) ， 它 由 “完全 生长 ”的 树 剪 去 子 树 。 通 过 
删除 结 点 的 分 枝 并 用 树叶 替换 它 而 剪 掉 给 定 结 点 上 的 子 树 。 该 树叶 的 类 标号 用 子 树 中 最 频繁 
的 类 标记 。 例 如 ， 注 意图 8. 6 未 剪 枝 树 的 结 点 “4:?” 的 子 树 。 假 设 该 子 树 中 最 频繁 的 类 是 
“类 B”。 在 树 剪 枝 后 的 版 本 中 ， 该 子 树 被 剪 枝 ， 用 树叶 “类 B” 替 换 。 

CART 使 用 的 代价 复杂 度 剪 枝 算 法 是 后 剪 枝 方法 的 一 个 实例 。 该 方法 把 树 的 复杂 度 看 做 
树 中 树叶 结 点 的 个 数 和 树 的 错误 率 的 函数 (其 中 ,错误 率 是 树 误 分 类 的 元 组 所 占 的 百 分 
比 ) 。 它 从 树 的 底部 开始 。 对 于 每 个 内 部 结 点 N， 计 算 N 的 子 树 的 代价 复杂 度 和 该 子 树 剪 枝 
后 W 的 子 树 〈 即 用 一 个 树叶 结 点 蔡 换 ) 的 代价 复杂 度 。 比 较 这 两 个 值 。 如 果 剪 去 结 点 N 的 
子 树 导致 较 小 的 代价 复杂 度 ， 则 剪 掉 该 子 树 ; 否则 ， 保 留 该 子 树 。 

使 用 一 个 标记 类 元 组 的 剪 枝 集 来 评估 代价 复杂 度 。 该 集合 独立 于 用 于 建立 未 剪 枝 树 的 训 
练 集 和 用 于 准确 率 评估 的 检验 集 。 算 法 产生 一 个 渐进 的 剪 枝 树 的 集合 。 一 般 而 言 ， 最 小 化 代 
价 复杂 度 的 最 小 决策 树 是 首选 。 

C4. 5 使 用 一 种 称 为 悲观 剪 枝 的 方法 ， 它 类 似 于 代价 复杂 度 方法 ， 因 为 它 也 使 用 错 
误 率 评估 ， 对 子 树 剪 枝 做 出 决定 。 然 而 ， 翡 观 剪 枝 不 需要 使 用 剪 枝 集 ， 而 是 使 用 训练 
集 估 计 错 误 率 。 注 意 ， 基 于 训练 集 评估 准确 率 或 错误 率 过 于 乐观 ， 因 此 具有 较 大 的 仿 
倚 。 因 此 ， 翡 观 剪 枝 方法 通过 加 上 一 个 惩罚 来 调节 从 训练 集 得 到 的 错误 率 ， 以 抵消 所 
出 现 的 偏 倚 。 

可 以 根据 对 树 编 码 所 需要 的 二 进位 位 数 ， 而 不 是 根据 估计 的 错误 率 ， 对 树 进行 前 枝 。 
“最 佳 ” 剪 校 树 是 最 小 化 编码 二 进位 位 数 的 树 。 这 种 方法 采用 8. 2. 2 节 介 绍 的 MDL 原则 。 
其 基本 思想 是 : 最 简单 的 解 是 首选 的 解 。 与 代价 复杂 性 前 枝 不 同 ， 它 不 需要 独立 的 元 
组 集 。 

另外 ， 对 于 组 合 方法 ， 先 剪 枝 和 后 剪 枝 可 以 交叉 使 用 。 后 剪 枝 所 需要 的 计算 比 先 剪 枝 
多 ， 但 是 通常 产生 更 可 靠 的 树 。 并 未 发 现 一 种 剪 枝 方法 优 于 所 有 其 他 方法 。 尽 管 某 些 剪 枝 方 
法 需要 额外 的 数据 支持 ， 但 是 在 处 理 大 型 数据 库 时 ， 这 并 不 是 问题 。 

尽管 剪 枝 后 的 树 一 般 比 未 剪 枝 的 树 更 紧凑 ， 但 是 它们 仍然 可 能 很 大 、 很 复杂 。 决 策 树 可 
能 受到 重复 和 复制 的 困扰 〈 见 图 8.7) ， 使 得 它们 很 难 解释 。 沿 着 一 条 给 定 的 分 枝 反 复 测 试 
一 个 属性 (如 “age <60?”， 后 面 跟着 “age <45?” 等 ) 时 就 会 出 现 重复 (repetition ) 。 复 
fi] (replication) 是 树 中 存在 重复 的 子 树 。 这 些 情况 影响 了 决策 树 的 准确 率 和 可 解释 性 。 使 
用 多 元 划分 (基于 组 合 属性 的 划分 ) 可 以 防止 该 问题 的 出 现 。 另 一 种 方法 是 使 用 不 同形 式 
的 知识 表示 (如 规则 ) ， 而 不 是 用 决策 树 。8. 4. 2 节 介 绍 如 何 从 决策 树 中 提取 IF- THEN 规 
则 ， 构 造 基于 规则 的 分 类 器 。 
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图 8.7 子 树 的 例子 : a) 重复 (其 中 属性 age 沿 树 的 给 定 分 枝 重 复 地 测试 ) ; b) 复制 ( 树 中 存 
在 重复 的 子 树 ， 如 以 结 点 “ceredi_rating?” 开 始 的 子 树 ) 


8. 2.4 ”可 伸缩 性 与 决策 树 归纳 

“如 果 驻 留 在 磁盘 上 的 类 标记 元 组 训练 集 D 不 能 装 进 内 存 会 怎样 7 换言之， 决策 树 归纳 
的 可 伸缩 性 如 何 ?” 已 有 的 决策 树 算法 ， 如 ID3、C4.5 和 CART 都 是 为 相对 较 小 的 数据 集 设 
计 的 。 当 这 些 算 法 用 于 超大 型 现实 世界 数据 库 的 挖掘 时 ， 有 效 性 就 成 了 令 人 关注 的 问题 。 我 
们 已 经 讨论 的 决策 树 算法 都 限制 训练 元 组 驻 留 在 内 存 中 。 

在 数据 挖掘 应 用 中 ， 包 含 数 以 百 万 计 元 组 的 超大 型 训练 集 是 很 普通 的 。 大 部 分 情况 下 ， 
训练 数据 不 能 放 在 内 存 ! 因此 ， 由 于 训练 元 组 在 主 存 和 高 速 缓存 换 进 换 出 ， 决 策 树 的 构造 可 
能 变 得 效率 低下 。 需 要 更 加 可 伸缩 的 方法 ， 处理 因为 太 大 而 不 能 放 在 内 存 的 训练 数据 。 早 期 
“节省 空间 ”的 策略 包括 离散 化 连续 值 属性 和 在 每 个 结 点 对 数据 抽样 。 然 而 ， 这 些 策略 仍然 
假定 训练 集 可 以 放 在 内 存 。 

最 近 , 已 经 提出 了 一 些 可 以 处 理 可 伸缩 问题 的 决策 树 算法 。 例 如 ，RainForest (雨林 ) 
能 适应 可 用 的 内 存量 ， 并 用 于 任意 决策 树 归纳 算法 。 该 方法 在 每 个 结 点 ， 对 每 个 属性 维护 一 
个 AVC- 集 (其 中 AVC 表示 “属性 - 值 ， 类 标号 ”) ， 描 述 该 结 点 的 训练 元 组 。 结 点 W 上 属 
性 4 的 AVC- 集 给 出 W 上 元 组 4 的 每 个 值 的 类 标号 计数 。 图 8. 8 显示 了 表 8. 1 的 元 组 数据 的 
AVC- 集 。 结 点 N 上 所 有 AVC- 集 的 集合 是 N 的 AVC- 组 群 。 结 点 N 上 属性 4 的 AVC- 集 的 大 
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小 仪 依赖 于 4 的 不 同 值 的 个 数 和 ON 上 元 组 集合 中 类 的 个 数 。 通 常 ， 即 使 对 于 实际 数据 集 ， 
它 也 能 够 放 在 内 存 中 。 然 而 ，RainForest 还 有 一 些 技 术 ， 用 于 处 理 AVC- 组 群 不 能 放 在 内 存 的 
情况 。 因 此 ， 对 于 非常 大 的 数据 集 上 的 决策 树 归 纳 ， 该 方法 具有 很 好 的 可 伸缩 性 。 



































T hos-compuer | | buys_computer 
| age yes no income yes | no 
youth 2 3 low 3 1 
middle_aged| 4 0 medium 4 2 
senior 3 2 high 2 2 
buys_computer buys_computer 
student yes no credit_ratting yes no 
yes 6 1 Jair 6 2 
no 3 4 excellent 3 3 























图 8.8 存放 训练 数据 的 聚集 信息 的 数据 结构 〈 例 如 ， 描 述 表 8. 1 中 数据 的 AVC- 集 ) 是 提高 决 
策 树 归 纳 可 伸缩 性 的 方法 之 一 

树 构造 的 自助 乐观 算法 ( Bootstrapped Optimistic Algorithm for Tree Construction, BOAT) 
是 一 种 决策 树 算 法 ， 采 用 了 完全 不 同 的 可 伸缩 方法 一 一 它 不 基于 特殊 数据 结构 的 使 用 ， 而 是 
使 用 一 种 称 为 “自助 法 ”( 见 8.5.4 节 ) 的 统计 学 技术 ， 创 建 给 定 训练 数据 的 一 些 较 小 的 样 
本 (或 子 集 ) ， 其 中 每 个 子 集 都 能 放 在 内 存 中 。 使 用 每 个 子 集 构造 一 棵 树 ， 导 致 多 棵 树 。 考 
察 这 些 树 并 使 用 它们 构造 一 棵 新 树 7"， 它 “非常 接近 ”于 原来 的 所 有 训练 数据 都 放 在 内 存 B 
所 产生 的 树 。 

BOAT 可 以 使 用 任何 选择 二 元 划分 并 且 基 于 划分 纯度 的 属性 选择 度量 ， 如 基尼 指数 。 
BOAT 使 用 属性 选择 度量 下 限 ， 以 便 检测 这 棵 “很 好 的 ” 树 7' 是 否 与 使 用 整个 数据 产生 的 
“实际 的 ” 树 7 不 同 。 它 对 TORK, LAST, 

通常 ，BOAT 只 需要 扫描 亡 两 次 。 即 使 与 传统 的 决策 树 算法 (如 图 8.3 中 的 基本 算法 ) 
比较 ， 这 也 是 相当 大 的 改进 。 传 统 的 方法 对 于 树 的 每 一 层 需要 一 次 扫描 ! BOAT EL RainFor- 
est 快 二 到 三 倍 ， 而 构造 相同 的 树 。BOAT 的 另 一 个 优点 是 它 可 以 增 量 地 更 新 。 也 就 是 说 ， 
BOAT 可 以 以 训练 数据 的 新 插 人 或 删除 更 新 决策 树 ， 以 便 反映 这 些 变化 ， 而 不 必 从 头 开始 重 
新 构造 树 。 


8.2.5 决策 树 妇 纳 的 可 视 化 挖掘 

“对 于 决策 树 归 纳 ， 有 没有 交互 式 方法 ， 使 得 我 们 可 以 在 树 构建 时 看 到 数据 和 树 ? 关 于 
数据 的 知识 能 够 帮助 树 的 构建 吗 ?” 本 节 ， 我们 将 学 习 一 种 支持 这 些 选项 的 决策 树 归纳 方 
法 。 基 于 感知 的 分 类 (Perception-based Classification, PBC) 是 一 种 基于 多 维 可 视 化 技术 的 
交互 式 方法 ， 人 允许 用 户 在 构建 决策 树 时 加 上 关于 数据 的 背景 知识 。 通 过 可 视 化 地 与 数据 交 
互 ， 用 户 也 可 能 逐步 深入 地 理解 数据 。 在 获得 大 约 相 同 准确 率 的 同时 ， 构 建 的 决策 树 往往 比 
使 用 传统 的 决策 树 归纳 方法 建立 的 决策 树 更 小 ， 因 而 更 容易 解释 。 

“如 何 对 数据 可 视 化 ， 以 支持 交互 式 决 策 树 构 建 ?” PBC 使 用 一 种 基于 像素 的 方法 观察 
具有 类 标号 信息 的 多 维 数据 。 它 采用 肩 形 方法 ， 把 多 维 数据 对 象 映射 到 一 个 被 划分 成 d 个 扇 
形 的 圆 ， 其 中 每 个 扇形 代表 一 个 属性 (2. 3. 1 节 )。 这 里 ， 每 个 数据 对 象 的 一 个 属性 秆 被 映 
射 到 一 个 着 色 的 像素 ， 表 示 该 对 象 的 类 标号 。 对 每 个 对 象 的 每 个 属性 - 值 对 都 进行 这 种 映 
射 。 对 每 个 属性 排序 ， 以 便 确定 扇形 内 安排 的 次 序 。 例 如 ， 给 定 扇形 内 的 属性 值 可 以 这 样 安 
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排 ， 以 便 显示 相同 属性 值 内 (关于 类 标号 ) 的 同 质 区 域 。 一 次 可 视 化 的 训练 数据 量 大 致 由 
属性 数 和 数据 对 象 数 的 乘积 确定 。 

PBC 系统 显示 一 个 划分 的 屏幕 ， 包 括 一 个 数据 交互 窗口 (Data Interaction window) 和 一 
个 知识 交互 窗口 (Knowledge Interaction window) ( 见 图 8.9)。 数 据 交 互 窗 口 显 示 所 考察 数据 
的 各 个 扇形 ， 而 知识 交互 窗口 显示 已 构建 的 决策 树 。 开 始 ， 数 据 交互 窗口 对 整个 训练 集 进行 
可 视 化 ， 而 知识 交互 窗口 显示 一 棵 空 的 决策 树 。 

传统 的 决策 树 算法 只 允许 对 数值 属性 进行 二 元 划分 。 然 而 ，PBC 允许 用 户 指定 多 个 分 裂 
点 ， 导 致 从 单个 树 结 点 长 出 多 个 分 枝 。 













A =F rawblue-mean [SpMt(~ 5 8]~ 38 11~7 
= v) = | 9 nue-mean [Split(~-2.1}~-1 3 
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“| C) workin progress 
| DY work in progress 
Q work in progress 
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ecards: 937 











MN Ue ETT > | 
Right mouse button splits attribute. 








ME EN A OO 
Left mouse button inserts line. Shift+left mouse button moves line 


图 8.9 交互 式 决策 树 构建 系统 PBC 的 屏幕 快照 。 多 维 训练 数据 在 数据 交互 窗口 (A) 显示 在 
诸 扇形 中 。 知 识 交互 窗口 (A) 显示 当前 的 决策 树 。 取 自 Ankerst, Elsen, Ester 和 
Kriegel[ AEEK99 ] 


树 交 互 地 构建 。 用 户 在 数据 交互 窗口 观察 多 维 数据 ， 并 选择 分 裂 属性 和 一 个 或 多 个 分 裂 
点 。 当 前 决策 树 在 知识 窗口 扩展 。 用 户 选择 决策 树 的 一 个 结 点 ， 可 以 给 该 结 点 指定 一 个 类 标 
号 〈 使 该 结 点 变 成 树叶 ) ， 或 者 要 求 可 视 化 对 应 于 该 结 点 的 训练 数据 。 这 导致 除 从 根 到 该 结 
点 路 径 上 使 用 的 分 裂 准 则 外 ， 每 个 属性 重新 可 视 化 。 该 交互 过 程 继续 ， 直 到 决策 树 的 每 个 树 
叶 都 被 指定 一 个 类 标号 。 

在 各 种 不 同 的 数据 集 上 ， 使 用 PBC 创建 的 决策 树 可 以 与 CART, C4. 5 和 SPRINT 算法 产 
生 的 决策 树 相 媲美 。 使 用 PBC 创建 的 决策 树 的 准确 率 可 以 与 算法 生成 的 决策 树 相 媲美 ， 但 
更 小 ， 因 此 更 容易 理解 。 用 户 不 仅 可 以 使 用 他 们 的 领域 知识 构建 决策 树 ， 而 且 还 可 以 在 构建 
过 程 中 更 加 深入 地 理解 他 们 的 数据 。 


8.3 贝 叶 斯 分 类 方法 

“什么 是 贝 叶 斯 分 类 法 ?” 贝 叶 斯 分 类 法 是 统计 学 分 类 方法 。 它 们 可 以 预测 类 隶属 关系 
的 概率 ， 如 一 个 给 定 的 元 组 属于 一 个 特定 类 的 概率 。 

贝 叶 斯 分 类 基于 贝 叶 斯 定理 。 分 类 算法 的 比较 研究 发 现 ，-- 种 称 为 梓 素 贝 叶 斯 分 类 法 的 
简单 贝 叶 斯 分 类 法 可 以 与 决策 树 和 经 过 挑选 的 神经 网 络 分 类 器 相 媲美 。 用 于 大 型 数据 库 ， 贝 





第 8 章 分 类 : 基本 概念 + 227 


叶 斯 分 类 法 也 已 表现 出 高 准确 率 和 高 速度 。 

朴素 贝 叶 斯 分 类 法 假定 一 个 属性 值 在 给 定 类 上 的 影响 独立 于 其 他 属性 的 值 。 这 一 假定 称 
为 类 条 件 独立 性 。 做 此 假定 是 为 了 简化 计算 ， 并 在 此 意义 下 称 为 “朴素 的 ”。 

8. 3. 1 节 回 顾 基 本 的 概率 概念 和 贝 叶 斯 定理 。 在 8. 3. 2 节 将 学 习 如 何 进行 贝 叶 斯 分 类 。 


8.3.1 贝 叶 斯 定理 

贝 叶 斯 定理 用 Thomas Bayes 的 名 字 命 名 。Thomas Bayes 是 一 位 不 墨守成规 的 英国 牧师 ， 
是 18 世纪 概率 论 和 决策 论 的 早期 研究 者 。 设 下 是 数据 元 组 。 在 贝 叶 斯 的 术语 中 ,， 互 看 做 
“GE”. A, Xn PhRMA. CHARA, RRC 下 属于 某 个 
特定 类 Co HTAR HE, FMEA “UE” RAMKA X, BB AW RR 
P(H |X) 。 换 言 之 ， 给 定 半 的 属性 描述 ， 找 出 元 组 外 属于 类 CC 的 概率 。 

P(H|X) 是 后 验 概率 (posterior probability), REZI X F, H 的 后 验 概率 。 例 如 ， 
假设 数据 元 组 世界 限于 分 别 由 属性 age 和 income 描述 的 顾客 ,而 里 是 一 位 35 岁 的 顾客 ， 其 
收入 为 4 万 美元 。 令 五 为 某 种 假设 ， 如 顾客 将 购买 计算 机 。 则 已 ( 玖 | 互 ) 反映 当 我 们 知道 顾 
客 的 年 龄 和 收入 时 ， 顾 客 天 将 购买 计算 机 的 概率 。 

相反 , PCH) 是 先 验 概率 (prior probability) ， 或 豆 的 先 验 概 率 。 对 于 我 们 的 例子 ， 它 是 
任意 给 定 顾客 将 购买 计算 机 的 概率 ， 而 不 管 他 们 的 年 龄 、 收 入 或 任何 其 他 信息 。 后 验 概 率 
P(A | X) 比 先 验 概率 P(H) 基于 更 多 的 信息 (例如 顾客 的 信息 ) 。P( 五 ) 独立 于 三。 

Ze (bs, P(X|H) BAHT, 互 的 后 验 概率 。 也 就 是 说 ， 它 是 已 知 顾客 下 将 购买 计 
算 机 ， 该 顾客 是 35 岁 并 且 收 入 为 4 万 美元 的 概率 。 

P(X) 是 互 的 先 验 概 率 。 使 用 我 们 的 例子 ， 它 是 顾客 集合 中 的 年 龄 为 35 岁 并 且 收 入 为 
4 万 美元 的 概率 。 

“如 何 估计 这 些 概率 ?” 正 如 下 面 将 看 到 的 , P(X) 、P(H) 和 已 (下 | 五) 可 以 由 给 定 的 数 
据 估 计 。 贝 时 斯 定理 是 有 用 的 ， 它 提供 了 一 种 由 P(X) 、P(H) A P(X|A) 计算 后 验 概率 
P(H | 于) 的 方法 。 贝 叶 斯 定理 是 : 

P(X|H)P(H 
poala = P RPU 


现在 ， 我 们 已 经 扫 清 了 障碍 ，8. 3. 2 节 将 考察 如 何在 朴素 贝 叶 斯 分 类 中 使 用 贝 叶 斯 定理 。 


8. 3.2 朴素 贝 叶 斯 分 类 
朴素 贝 叶 斯 (Naive Bayesian) 分 类 法 或 简单 贝 叶 斯 分 类 法 的 工作 过 程 如 下 : 
(1) BD 是 训练 元 组 和 它们 相关 联 的 类 标号 的 集合 。 通 常 ， 每 个 元 组 用 一 个 n 维 属 性 
向 量 半 = 1x1，x，,，…，x| 表示 ， 描 述 由 个 属性 4A, ，4,，…，4, 对 元 组 的 n 个 测量 。 
(2) 假定 有 mw 个 类 C,，C,，…，C。 给 定 元 组 下 ,分 类 法 将 预测 钱 属 于 具有 最 高 后 验 
概率 的 类 【〔 在 条 件 圣 下)。 也 就 是 说 ， 村 素 贝 叶 斯 分 类 法 预测 于 属于 类 C;， 当 且 仅 当 
P(C,|X) > P(C |X) l<j<m, j#i 
这 样 ， 最 大 化 P(C, |X). P(C, |X) RAMAC, 称 为 最 大 后 验 假 设 。 根 据 贝 叶 斯 定理 
((8.10) 式 )， 


(8. 10) 





P(X|C.)P(C,) 
P(X) 
(3) 由 于 P(X) 对 所 有 类 为 常数 ， 所 以 只 需要 PCX|C)PCC;) 最 大 即 可 。 如 果 类 的 先 


P(C, |X) = 





(8.11) 
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验 概 率 未 知 ， 则 通常 假定 这 些 类 是 等 概率 的 ， 即 P( C, ) =P(C,) =… =P(C)， 并 据 此 对 
P(X|Cj) BKK. BM, BAKE P(X|C;)P(C,)。 注 意 ， 类 先 验 概率 可 以 用 P(C,) = 
IC. |/|D| hit, HH | C,, | 是 D 中 Ci 类 的 训练 元 组 数 。 

(4) 给 定 具 有 许多 属性 的 数据 集 ， 计算 P(X|C;) 的 开销 可 能 非常 大 。 为 了 降低 计算 
P(X1C,) 的 开销 ， 可 以 做 类 条 件 独立 的 朴素 假定 。 给 定 元 组 的 类 标号 ,假定 属性 值 有 条 件 
地 相互 独立 〈 即 属性 之 间 不 存在 依赖 关系 ) A, 


P(X|C,) = II P(x, 1G) = P(x, | C,)P(x, |C) P(x, | C.) (8. 12) 


可 以 很 容易 地 由 训练 元 组 估计 概率 P(x, |C), Pla, lC), ++, P(x, |C;). TER, x, 表示 
元 组 下 在 属性 A, 的 值 。 对 于 每 个 属性 ， 考 察 该 属性 是 分 类 的 还 是 连续 值 的 。 例 如 ， 为 了 计 
算 P(X|C;)， 考 虑 如 下 情况 : 

(a) MRA, 是 分 类 属性 ， 则 P(xi |C) ED 中 属性 4 的 值 为 x 的 C, 类 的 元 组 数 除 以 万 
中 C, 类 的 元 组 数 | Cn lo 

(b) 如 果 A, 是 连续 值 属性 ， 则 需要 多 做 一 点 工作 ， 但 是 计算 很 简单 。 通 常 ， 假 定 连续 
值 属性 服从 均值 为 上 六、 标准 差 为 o 的 高 斯 分 布 ， 由 下 式 定义 








gluo) = — eS (8. 13) 
TO 
因此 
P(x, |C) = g(% Me, ,oe,) (8. 14) 


RARE LAA REA ULCER, PEREA! 需要 计算 Ac Moc, CHIE C 类 
训练 元 组 属性 A, 的 均值 〈 即 平均 值 ) 和 标准 差 。 将 这 两 个 量 与 入 一 起 代入 (8.13) 式 , 计 
F P(x, | Ci)。 

例如 ， 设 X= (35，40 000 美元 ) HH A, ALA, 分 别 是 属性 age 和 income, HARES 
TEX buys_computer, X AK RKB S EE “yes” (BD buys_computer = yes), {Ri age 尚未 离 
散 化 ， 因 此 是 连续 值 属性 。 假 设 从 训练 集 发 现 D 中 购买 计算 机 的 顾客 年 龄 为 38 +12 8#, fi 
言 之 ， 对 于 属性 age 和 这 个 类 ， 有 人 =38 Mo =12。 可 以 把 这 些 量 与 元 组 对 的 x, =35 一 起 代 
A (8.13) KX, 估计 P(age =35 | buys_computer = yes)。 关 于 均值 和 标准 差 的 计算 ， 参 见 
2.2 节 。 

(5) 为 了 预测 对 的 类 标号 ， 对 每 个 类 C;， 计 算 P(X|C,)P(C,)。 该 分 类 法 预测 输入 元 
H X KŠA C, SHAH 

P(X |C,) P(C,) > P(X|C,)P(C), l<jemyjFi (8. 15) 
言 之 ,被 预测 的 类 标号 是 使 P(X|C,)P(C,) 最 大 的 类 Co 

“ 贝 叶 斯 分 类 法 的 有 效 性 如 何 ?” 该 分 类 法 与 决策 树 和 神经 网 络 分 类 法 的 各 种 比较 实验 
表明 ， 在 某 些 领域 ， 贝 叶 斯 分 类 法 足以 与 它们 相 媲美 。 理 论 上 讲 ， 与 其 他 所 有 分 类 算法 相 
比 ， 贝 叶 斯 分 类 法 具有 最 小 的 错误 率 。 然 而 ， 实 践 中 并 非 总 是 如 此 。 这 是 由 于 对 其 使 用 的 假 
定 〈 如 类 条 件 独 立 性 ) 的 不 正确 性 ， 以 及 缺乏 可 用 的 概率 数据 造成 的 。 

贝 叶 斯 分 类 还 可 以 用 来 为 不 直接 使 用 贝 叶 斯 定理 的 其 他 分 类 法 提供 理论 判定 。 例 如 ,在 
某 种 假定 下 ， 可 以 证 明 : 与 朴素 贝 叶 斯 分 类 法 一 样 ， 许 多 神经 网 络 和 曲线 拟 合算 法 输出 最 大 
的 后 验 假定 。 

例 8.4 使 用 朴素 贝 叶 斯 分 类 预测 类 标号 。 给 定 与 例 8. 3 决策 树 归纳 相同 的 训练 数据 ， 
希望 使 用 朴素 贝 叶 斯 分 类 来 预测 未 知 元 组 的 类 标号 。 训 练 数据 在 表 8. 1 中 。 数 据 元 组 用 属性 
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age, income, student 和 credit_rating 描述 。 类 标号 属性 buys_computer 具有 两 个 不 同 值 (RI 
| yes, no}), BEC, 对 应 于 类 buys_computer = yes, Wi C, 对 应 于 类 buys_computer = no。 和 希望 分 
类 的 元 组 为 : 
X = (age = youth,income = medium,student = yes,credit_rating = fair) 

BRAK P(X |C,)P(C,), i= 1, 2. 每 个 类 的 先 验 概率 P(C,) 可 以 根据 训练 元 组 
计算 ; 

P(buys_computer = yes) =9/14 =0. 643 

P(buys_computer =no) =5/14 =0. 357 
为 了 计算 P(X1C,), i=1, 2, 计算 下 面 的 条 件 概率 : 


P( age = youth | buys_computer = yes ) =2/9 =0, 222 
P( age = youth | buys_computer = no) =3/5 =0. 600 
P( income = medium | buys_computer = yes) =4/9 =0, 444 
P( income = medium | buys_computer = no) =2/5 =0. 400 
P( student = yes | buys_computer = yes ) =6/9 =0. 667 
P( student = yes | buwys_computer = no ) . =1/5 =0. 200 
P( credit_rating = fair | buys_computer = yes ) =6/9 =0. 667 
P( credit_rating = fair | buys_computer = no) =2/5 =0. 400 


使 用 上 面 的 概率 ， 得 到 : 
P(X | buys_computer = yes) = P( age = youth | buys_computer = yes) 
x P(income = medium | buys_computer = yes) 
x P( student = yes | buys_computer = yes) 
x P(credit_rating = fair | buys_computer = yes) 
= 0.222 x 0. 444 x 0. 667 x 0. 667 = 0. 044 
类 似 地 ， 
P(X | buys_computer = no) = 0.600 x0.400 x0.200 x 0.400 = 0.019 
为 了 找 出 最 大 化 P(X | C;)PCC,) 的 类 ,计算 
P(X | buys_computer = yes) P( buys_computer = yes) = 0.044 x 0. 643 = 0.028 
P(X | buys_computer = no) P( buys_computer = no) = 0.019 x 0.357 = 0.007 
因此 ， 对 于 元 组 下 ， 朴 素 贝 叶 斯 分 类 预测 元 组 下 的 类 为 buys_computer = yes. E 
“如 果 遇 到 零 概率 和 值 怎么 办 ?” 注 意 , 在 (8.12) 式 中 ,根据 类 条 件 独立 假设 ， 用 概率 
P(x |C), P(x, | C,) ，…，P(%, | Ci) 的 乘积 估计 P(X|C,)。 这 些 概率 可 以 由 训练 元 组 信 
Th (RA) 。 需 要 对 每 个 类 计算 P(X|C,) (i=1，2,，…，m)， 以 便 找 出 最 大 化 PCY|C.) 
P(C,) 的 类 C， (步骤 5)。 考 虑 这 一 计算 。 对 于 元 组 下 中 每 个 属性 - 值 对 (BNA, =2,, k=l, 
2，…，zm) ， 需 要 统计 每 个 类 ( 即 每 个 Ci=1,，…，,m) 中 具有 该 属性 - 值 对 的 元 组 数 。 
在 例 8. 4 中 ， 有 两 个 类 buys_computer = yes 和 buys_computer = no, IE, XIF X KRH -E 
对 student =yes， 和 需要 两 个 计数 一 一 身份 是 学 生 并 且 buys_computer = yes 的 顾客 数 (用 于 P(X 
| buys_computer =yes) ) 和 身份 是 学 生 并 且 buys_computer = no 的 顾客 数 ( 用 于 P(X | buys_ 
computer = no ) ) , 
但 是 ， 如 果 关 于 类 buys_computer = no, 没有 代表 学 生 的 元 组 ， 导 致 P( student = yes | buys 
computer =no) =0 怎么 办 ? 换 句 话说 ， 如 果 得 到 某 个 P(x | C,) 的 零 概率 值 ， 会 发 生 什 么 ? 
尽管 没有 这 个 零 概率 ， 仍 然 可 能 得 到 一 个 表明 茸 属 于 OC, 类 的 高 概率 ， 但 是 将 这 个 零 概率 代 
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A (8.12) 式 将 返回 P(X | C,) 的 概率 为 零 ! 一 个 零 概率 将 消除 乘积 中 涉及 的 〈C: E) 所 
有 其 他 (后 验 ) 概率 的 影响 。 

有 一 个 简单 的 技巧 来 避免 该 问题 。 可 以 假定 训练 数据 库 D 很 大 ， 以 至 于 对 每 个 计数 加 1 
造成 的 估计 概率 的 变化 可 以 忽略 不 计 ， 但 可 以 方便 地 避免 概率 值 为 零 。 这 种 概率 估计 技术 称 
为 拉 普 拉 斯 校准 或 拉 普 拉 斯 估计 法 ， 以 法 国 数学 家 皮 埃 尔 . 拉 普 拉 斯 (Pierre Laplace, 
1749—1827 年 ) 的 名 字 命 和 名。 如 果 对 gq 个 计数 都 加 上 1， 则 必须 记 住 在 用 于 计算 概率 的 对 应 
分 母 上 加 上 gqg。 用 下 面 的 例子 解释 这 一 技术 。 

例 8.5 使 用 拉 普 拉 斯 校准 避免 计算 零 概 率 值 。 假 设 在 某 训练 数据 库 D 上 ， 类 buys_ 
computer = yes 包含 1000 个 元 组 ， 有 0 个 元 组 income = low，990 个 元 组 income = medium, 10 
个 元 组 income = high。 不 使 用 拉 普 拉 斯 校准 ， 这 些 事件 的 概率 分 别 是 0、0. 990 (990/1000) 
和 0.010 (10/1000)。 对 这 三 个 量 使 用 拉 普 拉 斯 校准 ， 假 定 对 每 个 收入 - 值 对 增加 一 个 元 
组 。 用 这 种 方法 ,分别 得 到 如 下 的 概率 (保留 三 位 小 数 ): 

1 991 11 
mg = 0 001, a = 0.988, TR = 0.011 
这 些 “ 校 准 的 ”概率 估计 与 对 应 的 “未 校准 的 ”估计 很 接近 ， 但 是 避免 了 零 概 率 值 。 = 


8.4 基于 规则 的 分 类 

本 节 考 察 基 于 规则 的 分 类 法 ， 其 中 学 习 得 到 的 模型 用 一 组 下 -THEN 规则 表示 。 首 先 ， 
考察 如 何 使 用 这 种 规则 进行 分 类 (8.4.1 节 )。 其 次 ， 研 究 从 决策 树 产生 规则 (8.4.2 节 )， 
或 者 使 用 顺序 覆盖 算法 直接 从 训练 数据 中 提取 规则 的 方法 (8.4.3 47). 


8.4.1 使 用 IF-THEN 规则 分 类 

规则 是 表示 信息 或 少量 知识 的 好 方法 。 基 于 规则 的 分 类 器 使 用 一 组 下 -THEN 规则 进行 
分 类 。 一 个 下 -THEN 规则 是 一 个 如 下 形式 的 表达 式 

IF 条 件 THEN 结论 。 

规则 Rl 是 一 个 例子 

RI ; IF age = youth AND student = yes THEN buys_computer = yes 

规则 的 “ 正 ” 部 分 CREAR) 称 为 规则 前 件 或 前 提 。“THEN” 部 分 (或 右 部 ) 是 规则 
的 结论 。 在 规则 前 件 ， 条 件 由 一 个 或 多 个 用 逻辑 连接 词 AND 连接 的 属性 测试 (例如 ，age = 
youth FI student = yes) 组 成 。 规 则 的 结论 包含 一 个 类 预测 〈 在 这 个 例子 中 ， 预 测 顾客 是 否 购 
买 计算 机 )。R1 也 可 以 写作 

R1:(age = youth) A (student = yes) =(buys_computer = yes) 

对 于 给 定 的 元 组 ， 如 果 规 则 前 件 中 的 条 件 〈 即 所 有 的 属性 测试 ) 都 成 立 ， 则 我 们 说 规 
则 前 件 被 满足 〈 或 简单 地 ， 规 则 被 满足 ) ， 并 且 规 则 覆盖 了 该 元 组 。 

规则 尽 可 以 用 它 的 覆盖 率 和 准确 率 来 评估 。 给 定 类 标记 的 数据 集 中 的 一 个 元 组 X, 
BL no; 为 规则 R 覆 盖 的 元 组 数 ，n,w 为 有 正确 分 类 的 元 组 数 ，|D | 是 DD 中 的 元 组 数 。 可 以 
将 RR 的 覆盖 率 和 准确 率 定 义 为 


coverage(R) = T 





D] (8.16) 


accuracy(R) = “ees (8.17) 


第 8 章 分 类 : 基本 概念 - 231 


也 就 是 说 ， 规 则 的 覆盖 率 是 规则 覆盖 ( 即 其 属性 值 使 得 规则 的 前 件 为 真 ) 的 元 组 的 百分比 。 
对 于 规则 的 准确 率 ， 考 察 在 它 覆 盖 的 元 组 中 ， 可 以 被 规则 正确 分 类 的 元 组 所 占 的 百分比 。 

例 8.6 规则 的 准确 率 和 覆盖 率 。 让 我 们 回 到 表 8. 1 的 数据 。 这 些 是 有 类 标记 的 元 组 ， 取 
自 AllElectronics 的 顾客 数据 库 。 我 们 的 任务 是 预测 顾客 是 否 购买 计算 机 。 考 虑 上 面 的 规则 R1, 
EAM S 14 个 元 组 中 的 2 个 。 它 可 以 对 这 两 个 元 组 正确 地 分 类 。 因 此 ，coverage (R1) =2/14 = 
14. 28% ， 而 accuracy( R1) =2/2 = 100% 。 | 

让 我 们 看 看 如 何 使 用 基于 规则 的 分 类 来 预测 给 定 元 组 天 的 类 标号 。 如 果 规 则 被 站 满足 ， 
则 称 该 规则 被 触发 。 例 如 ， 假 设 有 

X = (age = youth,income = medium,student = yes ,credit_rating = fair) 
想 根 据 buys_computer X} X DÆ. X Æ RI, MRZI. 

如 果 RI EEE, AE, E X KAN. ERR, MEAR A 
激活 ， 因 为 可 能 有 多 个 规则 被 满足 ! 如 果 多 个 规则 被 触发 ， 则 可 能 存在 一 个 问题 。 如 果 它 们 
指定 了 不 同 的 类 怎么 办 ? 或 者 ， 如 果 没 有 一 个 规则 被 下 满足 怎么 办 ? 

我 们 处 理 第 一 个 问题 。 如 果 多 个 规则 被 触发 ， 则 需要 一 种 解决 冲突 的 策略 来 决定 激活 哪 
一 个 规则 ， 并 对 站 指派 它 的 类 预测 。 有 许多 可 能 的 策略 。 我 们 考察 两 种 ， 即 规模 序 和 规 








则 序 。 
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规模 序 (size ordering) 方案 把 最 高 优先 权 赋 予 具 有 “最 苛刻 ”要 求 的 被 触发 的 规则 ， 
其 中 苛刻 性 用 规则 前 件 的 规模 度量 。 也 就 是 说 ， 激 活 具 有 最 多 属性 测试 的 被 触发 的 规则 。 

规则 序 (rule ordering) 方案 预先 确定 规则 的 优先 次 序 。 这 种 序 可 以 是 基于 类 的 或 基于 
规则 的 。 使 用 基于 类 的 序 ， 类 按 “ 重 要 性 ”递减 排序 ， 如 按 普遍 性 的 降序 排序 。 也 就 是 说 ， 
最 普遍 (或 最 频繁 ) 类 的 所 有 规则 首先 出 现 ， 次 普遍 类 的 规则 随后 ， 如 此 等 等 。 作 为 选择 ， 
它们 也 可 以 根据 每 个 类 的 误 分 类 代价 排序 。 在 每 个 类 中 ， 规 则 是 无 序 的 一 一 它们 不 必 有 序 ， 
因为 它们 都 预测 相同 的 类 。( 因此 不 存在 类 冲突 1) 

使 用 基于 规则 的 序 ， 根 据 规则 质量 的 度量 ， 如 准确 率 、 获 盖 率 或 规模 (规则 前 件 中 的 
属性 测试 数 ) ， 或 者 根据 领域 专家 的 建议 ， 把 规则 组 织 成 一 个 优先 权 列 表 。 在 使 用 规则 序 
时 ， 规 则 集 称 为 决策 表 。 使 用 规则 序 ， 最 先 出 现在 决策 表 中 的 被 触发 的 规则 具有 最 高 优先 
权 ， 因 此 激活 它 的 类 预测 。 满 足 互 的 其 他 规则 都 被 忽略 。 大 部 分 基于 规则 的 分 类 系统 都 使 
用 基于 类 的 规则 序 策 略 。 

注意 ， 在 第 一 种 策略 中 ， 规 则 总 体 上 是 无 序 的 。 在 对 元 组 分 类 时 可 以 按 任意 次 序 使 用 它 
们 。 也 就 是 说 ， 每 个 规则 之 间 是 析 取 (逻辑 OR) 关系 。 每 个 规则 代表 一 个 独立 的 金 块 或 知 
识 。 这 与 规则 序 〈 决 策 表 ) 方案 相反 ,那里 的 规则 必须 按 预先 确定 的 次 序 使 用 ， 以 避免 冲 
突 。 决 策 表 中 的 每 个 规则 都 蔓 涵 它 前 面 规则 的 否定 。 因 此 ， 决 策 表 中 的 规则 更 难 解释 。 

既然 已 经 知道 如 何 处 理 冲 突 ， 让 我 们 回 到 不 存在 满足 规则 的 情况 。 此 时 ， 如 何 确 
REX MRS? 在 这 种 情况 下 ， 可 以 建立 一 个 省 缺 或 默认 规则 ， 根 据 训 练 集 指定 一 个 默 
认 类 。 这 个 类 可 以 是 多 数 类 ,或 者 不 被 任何 规则 覆盖 的 元 组 的 多 数 类 。 当 日 仅 当 没 有 其 
他 规则 覆盖 半 时 ， 最 后 才 使 用 默认 规则 。 上 默认 规则 的 条 件 为 空 。 这 样 ， 当 没有 其 他 规则 
满足 时 该 规则 被 激活 。 

在 下 面 儿 节 内 ， 我 们 考察 如 何 建立 基于 规则 的 分 类 器 。 


8.4.2 由 决策 树 提取 规则 
在 8.2 节 ， 我 们 学 习 了 如 何 从 训练 数据 集 建立 决策 树 分 类 器 。 决 策 树 分 类 法 是 一 种 流行 


232 + 第 8 章 分 类 : 基本 概念 











357 








358 


的 分 类 方法 一 一 容易 理解 决策 树 如何 工 作 ， 并 且 它 们 以 准确 著称 。 决 策 树 可 能 变 得 很 大 ， 并 
且 很 难 解 释 。 本 节 考 察 如 何 通过 从 决策 树 提取 还 -THEN 规则 ， 建 立 基 于 规则 的 分 类 器 。 与 
决策 树 相 比 ， 正 -THEN 规则 可 能 更 容易 理解 ， 特 别 是 当 决 策 树 非常 大 时 更 是 如 此 。 

为 了 从 决策 树 提取 规则 ， 对 每 条 从 根 到 树叶 结 点 的 路 径 创 建 一 个 规则 。 沿 着 给 定 路 径 上 
的 每 个 分 裂 准 则 的 逻辑 AND 形成 规则 的 前 件 CTF” PBZ) 。 存 放 类 预测 的 树叶 结 点 形成 规 
则 的 后 件 (“THEN” 部 分 ) 。 

例 8. 7 ”由 决策 树 提取 分 类 规则 。 沿 着 从 根 结 点 到 树 中 每 个 树叶 结 点 的 路 径 ， 图 8. 2 的 
决策 树 可 以 转换 成 下 -THEN 分 类 规则 。 由 图 8. 2 提取 的 规则 是 : 

R1: IF age = youth AND student = no THEN buys_computer = no 

R2: IF age = youth AND student = yes THEN buys_computer = yes 

R3; IF age = middle_aged THEN buys_computer = yes 

R4; IF age = senior AND credit_rating = excellent THEN buys_computer = yes 

RS; IF age = senior AND credit rating = fair THEN buys computer = no u 

所 提取 的 每 个 规则 之 间 芍 涵 着 析 取 (逻辑 OR) 关系 。 由 于 这 些 规则 直接 从 树 中 提取 ， 
所 以 它们 是 互 斥 的 和 穷 举 的 。 互 斥 意 昧 不 可 能 存在 规则 冲突 ， 因 为 没有 两 个 规则 被 相同 的 元 
组 触发 。( 每 个 树叶 有 一 个 规则 ， 并 且 任 何 元 组 都 只 能 映射 到 一 个 树叶 。) 穷 举 意味 对 于 每 
种 可 能 的 属性 -~ 值 组 合 都 存在 一 个 规则 ， 使 得 该 规则 集 不 需要 默认 规则 。 因 此 ， 规 则 的 序 不 
重要 一 一 它们 是 无 序 的 。 

由 于 每 个 树叶 一 个 规则 ， 所 以 提取 的 规则 集 并 不 比 对 应 的 决策 树 简 单 多 少 ! 在 某 些 情况 
下 ， 提 取 的 规则 可 能 比 原来 的 树 更 难 解释 。 例 如 ， 图 8. 7 显示 的 倾斜 的 决策 树 存在 子 树 重复 
和 复制 。 提 取 的 规则 集 可 能 很 大 并 且 难 以 理解 ， 因 为 某 些 属 性 测试 可 能 是 不 相关 的 和 宛 余 
的 。 因 此 ， 该 树 很 浓密 。 尽 管 很 容易 从 决策 树 提取 规则 ， 但 是 可 能 需要 做 更 多 工作 ， 对 结果 
规则 集 进 行 剪 枝 。 

“如 何 修剪 规则 集 ?” 对 于 给 定 的 规则 前 件 ， 不 能 提高 规则 的 估计 准确 率 的 任何 条 件 都 
可 以 剪 掉 〈 即 删除 ) ， 从 而 泛 化 该 规则 。C4. 5 从 未 前 枝 的 树 提取 规则 ， 然 后 使 用 类 似 于 树 
剪 梳 的 悲观 方法 对 规则 剪 枝 。 使 用 训练 元 组 和 它们 相关 联 的 类 标号 来 估计 规则 的 准确 率 。 然 
而 ， 这 将 导致 乐观 估计 ， 或 者 ， 调 节 该 估计 以 补偿 偏 傈 ， 导 致 翡 观 估计 。 此 外 ， 对 整个 规则 
集 的 总 体 准确 率 没有 贡献 的 任何 规则 也 将 剪 去。 

然而 ， 在 规则 剪 枝 时 ， 可 能 出 现 其 他 问题 ， 因 为 这 些 规 则 不 再 是 互 斥 和 穷 举 的 。 为 了 
处 理 冲突 ，C4. 5 采用 基于 类 的 定 序 方案 。 它 把 一 个 类 的 所 有 规则 放 在 一 个 组 中 ， 然 后 确 
定 类 规则 集 的 秩 。 在 规则 集中 的 规则 是 无 序 的 。C4. 5 确定 类 规则 集 的 序 ， 最 小 化 假 正 例 
错误 〈 即 规则 预测 为 类 C， 但 实际 类 不 是 C) 。 首 先 考察 具有 最 小 假 正 例 的 类 规则 集 。 一 
且 剪 枝 完 成 ， 就 进行 最 终 的 检查 ， 删 除 复制 。 在 选择 默认 类 时 ，C4. 5 不 选择 多 数 类 ， 因 
为 这 个 类 多 半 有 许多 规则 用 于 它 的 元 组 。 或 者 ， 它 选择 包含 最 多 未 被 任何 规则 覆盖 的 训 
练 元 组 的 类 。 


8.4.3 ”使 用 顺序 覆盖 算法 的 规则 归纳 


使 用 顺序 覆盖 算法 (sequential covering algorithm) 可 以 直接 从 训练 数据 提取 下 -THEN 规 
则 《〈 即 不 必 产 生 决 策 树 ) 。 算 法 的 名 字源 于 规则 被 顺序 地 学 习 (一 次 一 个 )， 其 中 ， 给 定 类 
的 每 个 规则 覆盖 该 类 的 许多 元 组 (并 且 希 望 不 覆盖 其 他 类 的 元 组 )。 顺 序 覆 羡 算 法 是 最 广泛 
使 用 的 挖掘 分 类 规则 析 取 集 的 方法 ， 是 本 节 的 主题 。 
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有 许多 流行 的 顺序 覆盖 算法 ， 包 括 AQ 、CN2 和 最 近 提 出 的 RIPPER。 算 法 的 一 般 策略 
如 下 。 一 次 学 习 一 个 规则 。 每 学 习 一 个 规则 ， 就 删除 该 规则 覆盖 的 元 组 ， 并 在 剩 下 的 元 组 上 
重复 该 过 程 。 这 种 规则 的 顺序 学 习 与 决策 树 形成 了 对 照 。 由 于 决策 树 中 每 条 到 树叶 的 路 径 对 
应 一 个 规划， 因此 可 以 把 决策 树 归 纳 看 做 同时 学 习 一 组 规则 。 

基本 顺序 覆盖 算法 显示 在 图 8. 10 中 。 这 里 ， 一 次 为 一 个 类 学 习 规则 。 理 想 情 况 下 ， 在 
为 C 类 学 习 规 则 时 ， 我 们 希望 它 覆 盖 C 类 的 所 有 (或 许多 ) 训练 元 组 ， 并 且 没 有 (RRD) 
履 盖 其 他 类 的 元 组 。 这 样 ， 学 习 的 规则 应 该 具有 高 准确 率 。 规 则 不 必 是 高 覆盖 率 的 。 这 是 因 
为 每 个 类 可 以 有 多 个 规则 ， 使 得 不 同 的 规则 可 以 覆盖 同一 个 类 中 的 不 同 元 组 。 该 过 程 继续 ， 
直到 满足 某 终止 条 件 ， 如 不 再 有 训练 元 组 ,或 返回 规则 的 质量 低 于 用 户 指 定 的 阅 值 。 给 定 当 
前 的 训练 元 组 集 ，Learn_One_Rule 过 程 为 当前 类 找 出 “最 好 的 ”规则 。 


算法 : 顺序 覆盖 。 学 习 一 组 IE-THEN 分 类 规则 。 
输入 : 





D, 类 标记 元 组 的 数据 集合 。 
2tt-vals, 所 有 属性 与 它们 可 能 值 的 集合 。 

输出 : IF-THEN 规 则 的 集合 。 

方法 : 

(1) Rule set = {}; // 学习 的 规则 集 初 始 为 空 

(2) for 每 个 类 cdo 

(3) repeat 

(4) Rule = Learn One Rule(D, Att~vals,c); 

(5) ”从 D 中 删除 被 Ru ze 覆盖 的 元 组 

(6) until 终止 条 件 满 足 : 

(T) Rule_set = Rule_set + Rule // 将 新 规则 添加 到 规则 集 

(8) endfor 

(9) JR [Rule set; 











图 8.10 基本 顺序 覆盖 算法 


“如 何 学 习 规 则 ?” 典 型 地 ， 规 则 以 从 一 般 到 特殊 的 方式 增长 ( 见 图 8. 11) 。 我 们 可 以 将 
这 想象 成 束 状 搜索 (beam search) ， 从 空 规则 开始 ， 然 后 逐渐 向 它 添加 属性 测试 。 添 加 的 属 
性 测试 作为 规则 前 件 条 件 的 逻辑 合 取 。 假 设 训练 集 D 由 贷款 申请 数据 组 成 。 涉 及 每 个 申请 
者 的 属性 包括 他 们 的 年 龄 、 收 入 、 文 化 程度 、 住 处 、 信 誉 等 级 和 贷款 期 限 。 分 类 属性 是 loan 
_decision ， 指 出 贷款 申请 是 被 接受 〈 认 为 是 安全 的 ) 还 是 被 拒绝 (认为 是 有 风险 的 ) 。 为 了 
学 习 “accept” 类 的 规则 ， 从 最 一 般 的 规则 开始 ， 即 从 规则 前 件 条 件 为 空 的 规则 开始 。 该 规 
则 是 : 

IF THEN loan_decision = accept 

然后 ， 我 们 考虑 每 个 可 以 添加 到 该 规则 中 的 可 能 属性 测试 。 这 些 可 以 从 参数 Att- vals 
导出 ， 该 参数 包含 属性 及 其 相关 联 值 的 列表 。 例 如 ， 对 于 属性 - 值 对 (att，val) ， 可 以 考 
虑 诸如 at =val, att<val, att > val 等 测试 。 通常， 训练 数据 包含 许多 属性 ， 每 个 属性 都 
有 一 些 可 能 的 值 。 找 出 最 优 规 则 集 是 计算 昂贵 的 。 或 者 ，Learn_One_Rule 采用 一 种 贪心 的 
深度 优先 策略 。 每 当面 临 添加 一 个 新 的 属性 测试 (SRM) 到 当前 规则 时 ， 它 根据 训练 
样本 选择 最 能 提高 规则 质量 属性 的 测试 。 稍 后 ， 将 更 详细 地 讨论 规则 质量 度量 。 目 前 ， 
我 们 使 用 规则 的 准确 率 作 为 质量 度量 。 回 到 图 8. 11 的 例子 ， 假 设 Learn_One_Rule 发 现 属 
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性 测试 income = high 最 大 限度 地 提高 了 当前 〈 空 ) 规则 的 准确 率 。 把 它 添加 到 条 件 中 ， 


当前 规则 变 成 
IF 
THEN loan_decision = accept 


IF foan_term = short IF loan_term = long IF income = high IF income = medium 
THEN foan_decision THEN /oan_decision THEN /oan_decision = accept | THEN loan_decision 
= accept = accept = accept 


IF income = high AND IF income = high AND IF income = high AND 


IF income = high AND 





age = youth age = middle_age credit rating = excellent credit_rating = fair 
THEN /oan_decision THEN /oan_decision THEN loan 8 decision = accept THEN loan_decision 
= accept = accept _ = accept 


图 8.11 规则 空间 从 一 般 到 特殊 搜索 


IF income = high THEN loan_decision = accept 

SS DI— PMA ERR, SERA BE te AK) “accept” mA. TERRIER 

时 ， 再 次 考虑 可 能 的 属性 测试 ， 结 果 选 中 credit_rating = excellent。 当 前 规则 增长 ， 变 成 
IF income = high AND credit_rating = excellent THEN loan_decision = accept 

重复 该 过 程 ， 每 一 步 继 续 贪心 地 增长 规则 ， 直 到 结果 规则 达到 可 接受 的 质量 水 平 。 

贪心 搜索 不 允许 回溯 。 在 每 一 步 ， 启 发 式 地 添加 当时 看 上 去 最 好 的 选择 。 在 这 一 过 程 
中 ， 如 果 我 们 不 自觉 地 做 出 一 个 很 差 的 选择 会 怎么 样 ? 为 了 减少 发 生 这 种 情况 的 几率 ， 可 以 
选择 最 好 的 个 而 不 是 一 个 属性 测试 添加 到 当前 规则 中 。 这 样 ， 进 行 宽度 为 k 的 东 状 搜索 ， 
在 每 一 步 维持 上 个 最 佳 候 选 ， 而 不 是 一 个 最 佳 候选 。 

1. 规则 质量 度量 

Learn_One_Rule 需要 度量 规则 的 质量 。 每 当 考 虑 一 个 属性 测试 时 ， 它 必须 检查 ， 看 添加 
该 测试 到 规则 的 条 件 中 是 否 能 导致 一 个 改进 的 规则 。 乍 一 看 准确 率 似乎 是 一 个 显然 的 选择 ， 
但 考虑 例 8. 8。 

例 8.8 根据 准确 率 从 两 个 规则 中 选择 。 考 虑 图 8.12 所 示 的 两 个 规则 。 这 两 个 规则 都 
是 loan_decision = accept 类 的 规则 。 使 用 “a” 表 示 “accept” XATA, “r” RIR “reject” 
类 的 元 组 。 规 则 Rl 正确 地 对 它 覆 盖 的 40 个 元 组 中 的 38 个 进行 了 分 类 。 规 则 R2 只 覆盖 了 2 
个 元 组 ， 它 正确 地 进行 了 分 类 。 它 们 的 准确 率 分 别 为 95% 100%. XE, RAWRI 具有 更 
高 的 准确 率 。 然 而 由 于 小 覆盖 率 ，R2 不 是 更 好 的 规则 。 m 

从 这 个 例子 可 以 看 出 ， 准 确 率 本 身 并 非 规则 质量 的 可 靠 估计 。 覆 盖 率 本 身 也 没有 用 一 一 
对 于 给 定 的 类 ， 可 以 构造 一 个 规则 ， 它 履 盖 许多 元 组 ， 大 部 分 属于 其 他 类 ! 因此 ， 寻 找 评 估 
规则 质量 的 其 他 度量 ， 可 以 集成 准确 率 和 覆盖 率 。 这 里 ， 将 考察 几 种 度量 ， 主 要 是 精 ， 另 一 
种 是 基于 信息 增益 的 度量 ， 以 及 一 种 考虑 覆盖 率 的 统计 检验 。 对 于 我 们 的 讨论 ， 假 设 学 习 类 
c 的 规则 。 当 前 的 规则 是 尺 ，IF condition THEN class =c。 我 们 想 知道 给 定 属性 测试 逻辑 合 取 
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到 condition 中 是 否 导 致 更 好 的 规则 。 我 们 称 新 的 条 件 为 condition'， 其 中 R'; IF condition’ 
THEN class =c 是 一 个 可 能 的 新 规则 。 换 言 之 ,我 们 想 知道 R' 是 否 比 RR 更 好 。 











图 8.12 loan_decision = accept 类 的 规则 ， 显 示 accept(a) 和 reject(r) 元 组 


在 讨论 用 于 决策 树 属性 选择 的 信息 增益 度量 时 (8.3.2 节 (8.1) 式 ) ,我们 已 经 见 过 

Hio MEAT BOER D 的 元 组 分 类 所 需要 的 期 望 信息 。 这 里 ，D 是 condition' 覆 盖 的 元 组 

合 , Mp dE DPC, BARR, HBL), condition BY, HERA TFRAAPKAKETA 
和 少量 其 他 类 元 组 的 条 件 。 

另 一 种 度量 基于 信息 增益 ， 在 一 阶 归纳 学 习 器 (First Order Inductive Learner, FOIL) 中 
提出 。FOIL 是 一 种 学 习 一 阶 逻辑 规则 的 顺序 覆盖 算法 。 学 习 一 阶 逻辑 规则 更 复杂 ， 因 为 这 
种 规则 包含 变量 ， 而 本 节 所 关心 的 规则 都 是 命题 ( 即 不 含 变 量 )9。 在 机 器 学 习 中 ， 用 于 学 
习 规 则 的 类 的 元 组 称 正 元 组 ， 而 其 余 元 组 为 负 元 组 。 设 pos(neg) 为 被 尺 覆 盖 的 正 〈 负 ) 元 
组 数 。 设 pos’( neg’) 为 被 尺 覆 盖 的 正 〈 负 ) 元 组 数 。FOIL 用 下 式 估计 扩展 condition' 而 获得 
的 信息 


FOIL Gain = pos’ x (log, —P— -log —P% | (8. 18) 
pos’ + neg pos + neg 


它 偏 向 于 具有 高 准确 率 并 且 覆 盖 许多 正 元 组 的 规则 。 

还 可 以 使 用 统计 显著 性 检验 来 确定 规则 的 效果 是 否 并 非 出 于 偶然 性 ， 而 是 预示 属性 值 与 
类 之 间 的 真实 相关 性 。 该 检验 将 规则 覆盖 的 元 组 的 观测 类 分 布 与 规则 随机 预测 产生 的 期 望 类 
分 布 进行 比较 。 我 们 希望 评估 这 两 个 分 布 之 间 的 观测 差 是 否 是 随机 的 。 可 以 使 用 似 然 率 统计 
量 (likelihood ratio statistic ) 

Likelihood_Ratio = 2 2 Sieg (£ ) (8. 19) 

其 中 m 是 类 数 。 

对 于 满足 规则 的 元 组 ，f; 是 这 些 元 组 中 类 i 的 观测 频率 ，e; 是 规则 随机 预测 时 类 i 的 期 
望 频率 。 该 统计 量 服从 自由 度 为 m -1 的 X 分 布 。 似 然 率 越 高 ， 规 则 正确 预测 数 与 “随机 猜 
测 器 ”的 差 越 显 著 。 也 就 是 说 ， 规 则 的 性 能 并 非 偶然 性 。 似 然 率 有 助 于 识别 具有 显著 覆盖 
率 的 规则 。 

CN2 使 用 炉 和 似 然 率 检验 ， 而 FOIL 的 信息 增益 被 RIPPER 使 用 。 

2. FAM BT AR 

在 评估 规则 时 ，Zearr_One_Rule 不 使 用 检验 集 。 上 面 介 绍 的 规则 质量 评估 使 用 原 训练 数 





晶 ” 顺 便 说 一 下 ，FOIL 由 ID3 之 父 Quinlan 提出 。 


236 - 第 8 章 分 类 ; 基本 概念 


[363 | 


[B364] 





据 的 元 组 。 这 种 评估 是 乐观 的 ， 因 为 规则 可 能 过 分 拟 合 这 些 数据 。 也 就 是 说 ， 规 则 可 能 在 训 
练 数据 上 性 能 很 好 ,但 是 在 以 后 的 数据 上 就 不 那么 好 。 为 了 补偿 这 一 点 ， 可 以 对 规则 前 枝 。 
通过 删除 一 个 合 取 〈 属 性 测试 ) 对 规则 前 枝 。 选 择 对 规则 R 剪 枝 ， 如 果 在 独立 的 元 组 集 上 
评 仿 ， 玉 剪 枝 后 的 版 本 具有 更 高 的 质量 。 与 决策 树 剪 枝 一 样 ， 称 这 个 元 组 集 为 前 枝 集 。 可 以 
使 用 各 种 剪 枝 策 略 ， 如 前 面 介绍 的 悲观 剪 枝 方法 。 

FOIL 使 用 一 种 简单 但 很 有 效 的 方法 。 给 定 规则 R, 


FOIL_Prune(R) = PSE (8. 20) 
pos + neg 


其 中 ，pos 和 neg 分 别 为 规则 R 覆盖 的 正 元 组 数 和 负 元 组 数 。 这 个 值 将 随 着 R 在 剪 枝 集 上 的 
准确 率 的 增加 而 增加 。 因 此 ， 如 果 R 前 枝 后 版 本 的 FOIL_Prune 值 较 高 ， 则 对 R BIB, 

根据 约定 ， 在 考虑 剪 枝 时 ，RIPPER 从 最 近 添 加 的 合 取 项 开始 。 只 要 剪 枝 导 致 改进 ， 就 
一 次 剪 去 一 个 合 取 项 。 


8.5 模型 评估 与 选择 

既然 已 经 建立 了 分 类 模型 ， 你 的 脑海 中 就 可 能 浮现 许多 问题 。 例 如 ， 假 设 使 用 先前 的 销 
售 数据 训练 分 类 器 ， 预 测 顾客 的 购物 行为 。 你 希望 评估 该 分 类 器 预测 未 来 顾客 购物 行为 
《 即 未 经 过 训练 的 未 来 顾客 数据 ) 的 准确 率 。 你 甚至 可 能 尝试 了 不 同 的 方法 ， 建 立 了 多 个 分 
类 器 ， 并 且 希 望 比较 它们 的 准确 率 。 但 是 ， 什 么 是 准确 率 ? 如 何 估 计 它 ? 分 类 器 “准确 率 "” 
的 某 些 度量 比 其 他 度量 更 合适 吗 ? 如 何 得 到 可 靠 的 准确 率 估计 ? 本 节 讨 论 这 些 问题 。 

8. 5. 1 节 介 绍 分 类 器 准确 率 的 各 种 评估 度量 。 保 持 和 随机 子 抽样 (8. 5.2 节 ) 、- 折 交叉 
验证 (8.5.3 节 ) 和 自助 方法 (8. 5. 4 节 ) 都 是 基于 给 定数 据 的 随机 抽样 划分 ， 评 估 准 确 率 
的 常用 技术 。 如 果 有 多 个 分 类 器 并 且 想 选择 一 个 “最 好 的 ”， 怎 么 办 ? 这 称 为 模型 选择 ( 即 
选择 一 个 分 类 器 ) 。 最 后 两 节 讨论 这 一 问题 。8. 5. 5 节 讨 论 如 何 使 用 统计 显著 性 检验 来 评估 
两 个 分 类 器 的 准确 率 之 差 是 否 纯 属 偶然 。8. 5. 6 节 介 绍 如 何 使 用 成 本 收益 和 接受 者 操作 特征 
( Receiver Operating Characteristic, ROC) 曲线 比较 分 类 器 。 


8.5.1 评估 分 类 器 性 能 的 度量 


本 节 介 绍 一 些 评估 度量 ， 用 来 评估 分 类 器 预测 元 组 类 标号 的 性 能 或 “准确 率 " 。 我 们 将 
考虑 各 类 元 组 大 致 均匀 分 布 的 情况 ， 也 考虑 类 不 平衡 的 情况 (例如 ， 在 医学 化 验 中 ， 感 兴 
趣 的 重要 类 稀少 ) 。 本 节 介 绍 的 分 类 器 评估 度量 汇总 在 图 8. 13 中 ， 包 括 准确 率 (又 称 为 
“识别 率 ”) 、 敏 感度 (或 称 为 召回 率 ，recall) 、 特 效 性 、 精 度 (precision), F, 和 Fy. TER, 
尽管 准确 率 是 一 个 特定 的 度量 ， 但 是 “准确 率 ”一 词 也 经 常用 于 谈论 分 类 器 预测 能 力 的 通 
用 术语 。 

由 于 学 习 算 法 对 训练 数据 的 过 分 特 化 作用 ， 使 用 训练 数据 导出 分 类 器 ， 然 后 评估 结果 模 
型 的 准确 率 可 能 错误 地 导致 过 于 乐观 的 估计 。 ( 稍 后 ， 我 们 更 详细 地 讨论 1!) 分 类 器 的 准确 
率 最 好 在 检验 集 上 估计 。 检 验 集 由 训练 模型 时 未 使 用 的 含 标记 类 的 元 组 组 成 。 

在 讨论 各 种 度量 之 前 ， 需 要 熟悉 一 些 术 语 。 回 人 忆 一 下 ,我 们 可 能 谈论 过 正 元 组 〈 感 兴 
趣 的 主要 类 的 元 组 ) 和 负 元 组 (其 他 元 组 )?。 例 如 ， 给 定 两 个 类 ， 正 元 组 可 能 是 buys_com- 
puter =yes， 负 元 组 是 buys_computer = no。 假 设 在 有 标号 的 元 组 组 成 的 训练 集 上 使 用 分 类 器 。 


日 在 机 器 学 习 和 模式 识别 文献 中 ， 它 们 分 别称 为 正 样本 和 负 样 本 。 
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P 是 正 元 组 数 ，N 是 负 元 组 数 。 对 于 每 个 元 组 ， 我 们 把 分 类 器 预测 的 类 标号 与 该 元 组 已 知 的 




















类 标号 进行 比较 。 
度量 | 公式 
准确 率 、 识 别 率 全 
> > FP+EN 
错误 率 、 误 分 类 率 Pav’ 





WAR MEAR AMR | 全 








特效 性 、 真 负 例 率 TN 





精度 TP+EP 





2 x precision x recall 


Fy Fix FSS 
精度 和 召回 率 的 调和 均值 precision+recall 





C+) x precision x recall 





| Fp， 其 中 B 是 非 负 实数 


B x precision+recall 








图 8. 13 评估 度量 。 注 意 : 某 些 度量 有 多 个 名 称 。TP，TN，FP，FN，P,N 分 别 表示 真正 例 、 
真 负 例 、 假 正 例 、 假 负 例 、 正 和 负 样 本 数 
还 有 四 个 需要 知道 的 术语 。 这 些 术语 是 用 于 计算 许多 评估 度量 的 “构件 ”， 理 解 它 们 有 
助 于 领会 各 种 度量 的 含义 。 
。 真正 例 / 真 阳性 (Tme Positive, TP): 是 指 被 分 类 器 正确 分 类 的 正 元 组 。 令 TP HA 
正 例 的 个 数 。 
。 真 负 例 / 真 阴性 (True Negative, TN): 是 指 被 分 类 器 正确 分 类 的 负 元 组 。 令 TN 为 
真 负 例 的 个 数 。 
© 假 正 例 / 假 阳性 (False Positive, FP); 是 被 错误 地 标记 为 正 元 组 的 负 元 组 (例如 ， 
类 buys_computer = no 的 元 组 ， 被 分 类 器 预测 为 buys_computer = yes), 4 FP 为 假 正 例 
的 个 数 。 
© 假 负 例 / 假 阴 性 (False Negative, FN): 是 被 错误 地 标记 为 负 元 组 的 正 元 组 (例如 ， 
类 buys_computer = yes 的 元 组 ， 被 分 类 器 预测 为 buys_computer = no)。 令 FN 为 假 负 例 
的 个 数 。 
这 些 术语 汇总 在 图 8. 14 的 混淆 和 矩阵 中 。 
混淆 矩阵 是 分 析 分 类 器 识别 不 同类 元 组 的 一 种 有 用 工具 。7P 和 TN 告诉 我 们 分 类 器 何 
时 分 类 正确 ， 而 FP 和 FN 告诉 我 们 分 类 器 何 时 分 类 错误 。 预测 的 类 
给 定 m 个 类 (AA meS2), 混淆 矩阵 (confusion matrix) 
是 一 个 至 少 为 mxm 的 表 。 前 m FTA m 列 中 的 表 目 CHM,， 
指出 类 i 的 元 组 被 分 类 器 标记 为 类 j 的 个 数 。 理 想 地 ， 对 
于 具有 高 准确 率 的 分 类 器 ， 大 部 分 元 组 应 该 被 混 清和 矩阵 从 
CM P) CM,,,, 的 对 角 线 上 的 表 目 表示 ， 而 其 他 表 目 为 0 8.14 ”一 个 混 清 矩阵 ， 显 示 了 
或 者 接近 0。 也 就 是 说 ，FP 和 FN 接近 0。 正 元 组 和 负 元 组 的 合计 
该 表 可 能 有 附加 的 行 和 列 ， 提 供 合计 。 例 如 ， 在 图 8. 14 IRAE, BART PAN, 
Mob, PRA RIC A IEW CAA (TP + FP)，N' 是 被 标记 为 负 的 元 组 数 (TN + FN). 
元 组 的 总 数 为 TP+TN+FP+PN, 或 P+N, 或 已 +NW'。 注 意 ， 尽 管 所 显示 的 混淆 矩阵 是 针 
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对 二 元 分 类 问题 的 ， 但 是 容易 用 类 似 的 方法 给 出 多 类 问题 的 混淆 矩阵。 

现在 ， 从 准确 率 开 始 ， 考 察 评估 度量 。 分 类 器 在 给 定 检验 集 上 的 准确 率 (accuracy) 是 
被 该 分 类 器 正确 分 类 的 元 组 所 占 的 百分比 。 即 ， 

TP + TN 
accuracy = -万 + . (8.21) 

在 模式 识别 文献 中 ， 准 确 率 又 称 为 分 类 器 的 总 体 识 别 率 ; 即 它 反映 分 类 器 对 各 类 元 组 的 正确 
识别 情况 。 两 个 类 buys_computer = yes ( 正 类 ) 和 buys_computer = no (HÆ) 混淆 矩阵 的 例 
子 显 示 在 图 8. 15 中 。 显 示 了 合计 ， 以 及 每 类 和 总 体 识别 率 。 看 一 眼 混 淆 矩阵 ， 很 容易 看 出 
相应 的 分 类 器 是 否 混淆 了 两 个 类 。 


类 buyscomputer=yes 











buyscomputer=no 合计 RAR (w) 
7000 99.34 
= 
za oo ose | 


图 8. 15 类 buys_computer = yes 和 buys_computer = no KEIR, BPS i 行 和 第 j 列 的 表 目 显示 
K i 的 元 组 被 分 类 器 标记 为 类 /的 个 数 。 理 想 地 ， 非 对 角 线 上 的 表 目 应 当 为 0 或 接近 0。 


例如 ， 我 们 看 到 421 个 “no” 元 组 被 误 标记 为 “yes”"。 当 类 分 布 相对 平衡 时 ， 准 确 率 最 
有 效 。 

我 们 也 可 以 说 分 类 器 M 的 错误 率 或 误 分 类 率 ， 它 是 1 - accuracy (M), HP 
accuracy(M) 是 M 的 准确 率 。 它 也 可 以 用 下 式 计算 


error rate = TEEN (8.22) 


如 果 想 使 用 训练 集 ( 而 不 是 检验 集 ) 来 估计 模型 的 错误 率 ， 则 该 量 称 为 再 代入 误差 (resub- 
stitution error) 。 这 种 错误 估计 是 实际 错误 率 的 乐观 估计 (类 似 地 ， 对 应 的 准确 率 估计 也 是 乐 
观 的 ) ， 因 为 并 未 在 没有 见 过 的 任何 样本 上 对 模型 进行 检验 。 

现在 ， 考 虑 类 不 平衡 问题 ， 其 中 感 兴趣 的 主 类 是 稀少 的 。 也 就 是 说 ， 数 据 集 的 分 布 反映 
负 类 显著 地 占 多 数 ， 而 正 类 占 少 数 。 例 如 ， 在 欺诈 检测 应 用 中 ， 感 兴趣 的 类 (REX) 是 
“fraud” (欺诈 )， 它 的 出 现 远 不 及 负 类 “monfjauduiani” (JFR) 频繁 。 在 医疗 数据 中 ， 
可 能 也 有 稀有 类 ， 如 “cancer” (JIE), HRB 经 训练 了 一 一 个 分 类 器 ， 对 医疗 数据 元 组 分 
类 ， 其 中 类 标号 属性 是 “cancer” ， 而 可 能 的 类 值 是 “yes” 和 “no”。97% 的 准确 率 使 得 该 
分 类 器 看 上 去 相当 准确 ,但 是 ， 如 果实 际 只 有 3% 的 训练 元 组 是 痛 症 ,怎么 样 ? 显然 ，97% 
的 准确 率 可 能 不 是 可 接受 的 。 例 如 ， 该 分 类 器 可 能 只 是 正确 地 标记 非 癌 症 元 组 ， 而 错误 地 对 
所 有 癌症 元 组 分 类 。 因 此 ， 需 要 其 他 的 度量 ,评估 分 类 器 正确 地 识别 正 元 组 (“cancer = 
yes”) 的 情况 和 正确 地 识别 负 元 组 (“cancer =no”) 的 情况 。 

为 此 ， 可 以 分 别 使 用 灵敏 性 (sensitivity) 和 特效 性 (specificity) 度量 。 灵 敏 度 也 称 为 
KEG (RS) 率 〈 即 正确 识别 的 正 元 组 的 百分比 ) ， 而 特效 性 是 真 负 例 率 ( 即 正确 识别 的 
负 元 组 的 百分比 ) 。 这 些 度量 定义 为 













buys_computer=yes 






buys_computer=no 
合计 











sensitivity = = (8. 23) 


“specificity = mn (8. 24) 
可 以 证 明 准 确 率 是 灵敏 性 和 特效 性 度量 的 函数 ; 
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ne N 
accuracy = sensitivity + specificity (P+) (8. 25) 


$18.9 灵敏 性 和 特效 性 。 图 8. 16 显示 了 医疗 数据 的 混淆 和 矩阵， 其 中 ， 类 标号 属性 


cancer 的 类 值 为 yes 和 no。 该 分 类 器 的 灵敏度 为 = = 30.00% 。 特 效 性 为 = = 98. 56% 。 
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该 分 类 器 的 总 体 准确 率 为 -O05 =96. 50% 。 这 样 ， 


合计 | 识别 率 (%) 
300 30.00 


我 们 注意 到 ， 尽 管 该 分 类 器 具有 很 高 的 准确 率 ， 但 9700 98.56 

















是 考虑 到 它 很 低 的 灵敏 度 ， 它 正确 标记 正 类 (稀有 | 合计 ||230 | 9770 || 10 000 96.40 
类 ) 的 能 力 还 是 很 差 。 处 理 类 失衡 数据 集 的 技术 在 图 8 16 类 cancer = yes 和 cancer = no HIE 
8. 6.5 节 给 出 。 a 淆 矩阵 

精度 和 召回 率 度 量 也 在 分 类 中 广泛 使 用 。 精 度 (precision) 可 以 看 做 精确 性 的 度量 (B 
标记 为 正 类 的 元 组 实际 为 正 类 所 占 的 百分比 )， 而 召回 率 (recall) 是 完全 性 的 度量 (BE 
元 组 标记 为 正 的 百分比 )。 召 回 率 看 上 去 熟悉 ， 因 为 它 就 是 灵敏 度 (或 真正 例 率 )。 这 些 度 
量 可 以 如 下 计算 : 








。. TP 
precision = Fp 4 FP (8. 26) 
TP TP 
recall = TP + FN = P (8. 27) 
例 8. 10 精度 与 召回 率 。 关 于 yes 类 ， 图 8. 16 中 分 类 器 的 精度 为 30 =39. 13% 。 召 回 
RA S =30.00% ， 与 例 8.9 计算 灵敏 度 相同 。 n 


类 C 的 精度 满分 1. 0 意味 分 类 器 标记 为 类 C 的 每 个 元 组 都 确实 属于 类 C。 然 而 ， 对 于 被 
分 类 器 错误 分 类 的 类 C 的 元 组 数 ， 它 什么 也 没 告诉 我 们 。 类 C 的 召回 率 满分 1.0 意味 类 C 
的 每 个 元 组 都 标记 为 类 C， 但 是 并 未 告诉 我 们 有 多 少 其 他 元 组 被 不 正确 地 标记 属于 类 C。 精 
度 与 召回 率 之 间 趋 向 于 呈现 道 关系 ， 有 可 能 以 降低 一 个 为 代价 而 提高 另 一 个 。 例 如 ， 通 过 标 
记 所 有 以 肯定 方式 出 现 的 癌症 元 组 为 yes ， 医 疗 数据 分 类 器 可 能 获得 高 精度 ， 但 是 ， 如 果 它 
误 标 记 许 多 其 他 冶 症 元 组 ， 则 它 可 能 具有 很 低 的 召回 率 。 精 度 和 召回 率 通常 一 起 使 用 ， 用 固 
定 的 召回 率 值 比较 精度 ， 或 用 固定 的 精度 比较 召回 率 。 例 如 ， 可 以 在 0.75 的 召回 率 水 平 比 
较 精 度 。 

另 一 种 使 用 精度 和 召回 率 的 方法 是 把 它们 组 合 到 一 个 度量 中 。 这 是 下 度量 〈 又 称 为 媚 
TAR FBO) AF, 度量 的 方法 。 它 们 定义 如 下 : 





F= 2 x precision x recall (8.28) 
~ precision + recall ' 
F, = (1 +") x precision x recall (8.29) 


P x precision + recall 
RP, p 是 非 负 实 数 。 斑 度量 是 精度 和 召回 率 的 调和 均值 (证 明 留 做 习题 )。 它 赋予 精度 和 
召回 率 相等 的 权重 。Fs 度量 是 精度 和 召回 率 加 权 度 量 。 它 赋予 召回 率 权重 是 赋予 精度 的 B 
信 。 通 常 使 用 的 Fs 是 F。( 它 赋予 召回 率 权重 是 精度 的 2 倍 ) 和 F，，( 它 赋予 精度 的 权重 是 
召回 率 的 2 倍 ) 。 
“还 有 其 他 ， 准 确 率 可 能 不 合适 的 情况 吗 ?” 在 分 类 问题 中 ， 通 常 假定 所 有 的 元 组 都 是 
唯一 可 分 类 的 ， 即 每 个 训练 元 组 都 只 能 属于 一 个 类 。 然 而 ， 由 于 大 型 数据 库 中 的 数据 非常 多 
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样 化 ， 假 定 所 有 的 对 象 都 唯一 可 分 类 并 非 总 是 合理 的 。 假 定 每 个 元 组 可 以 属于 多 个 类 是 更 可 
行 的 。 这 样 ， 如 何 度量 大 型 数据 库 上 分 类 器 的 准确 率 呢 ? 准确 率 度量 是 不 合适 的 ， 因 为 它 设 
考虑 元 组 属于 多 个 类 的 可 能 性 。 

不 是 返回 类 标号 ， 而 是 返回 类 分 布 概率 是 有 用 的 。 这 样 ， 准 确 率 度量 可 以 采用 二 次 猜测 
(second guess) 试探 : 一 个 类 预测 被 断定 是 正确 的 ， 如 果 它 与 最 可 能 的 或 次 可 能 的 类 一 致 。 
尽管 这 在 某 种 程度 上 确实 考虑 了 元 组 的 非 唯一 分 类 ， 但 它 不 是 完全 解 。 

除了 基于 准确 率 的 度量 外 ， 还 可 以 根据 其 他 方面 比较 分 类 器 : 

。 BE: 这 涉及 产生 和 使 用 分 类 器 的 计算 开销 。 

。 Bet: 这 是 假定 数据 有 噪声 或 有 缺失 值 时 分 类 器 做 出 正确 预测 的 能 力 。 通 常 ， 和 鲁 

棒 性 用 噪声 和 缺失 值 渐 增 的 一 系列 合成 数据 集 评估 。 

。 可 伸缩 性 : 这 涉及 给 定 大 量 数据 ， 有 效 地 构造 分 类 器 的 能 力 。 通 常 ， 可 伸缩 性 用 规 
模 渐 增 的 一 系列 数据 集 评估 。 

。 可 解释 性 : 这 涉及 分 类 器 或 预测 器 提供 的 理解 和 洞察 水 平 。 可 解释 性 是 主观 的 ， 因 
而 很 难 评估 。 决 策 树 和 分 类 规则 可 能 容易 解释 ， 但 随 着 它们 变 得 更 复杂 ， 它 们 的 可 
解释 性 也 随 之 消失 。 我 们 将 讨论 这 一 领域 的 某 些 工作 ， 如 在 第 9 章 ， 讨 论 从 一 种 称 
为 后 向 传播 的 “ 黑 盒 ”神经 网 络 分 类 器 提取 规则 。 

概括 地 说 ， 我 们 已 经 介绍 了 一 些 评估 度量 。 当 数据 类 比较 均衡 地 分 布 时 ， 准 确 率 效果 最 
好 。 其 他 度量 ， 如 灵敏 度 或 召回 率 )、 特 效 性 、 精 度 、F 和 FF 更 适合 类 不 平衡 问题 ， 那 里 
主要 感 兴趣 的 类 是 稀少 的 。 本 节 剩 余部 分 集中 讨论 如 何 获得 可 靠 的 分 类 器 准确 率 估计 。 


8.5.2 保持 方法 和 随机 二 次 抽样 


保持 (holdout) 方法 是 我 们 迄今 为 止 讨论 准确 率 时 有 暗 指 的 方法 。 在 这 种 方法 中 ， 给 定 
数据 随机 地 划分 成 两 个 独立 的 集合 :训练 集 和 检验 集 。 通 常 ，2/3 的 数据 分 配 到 训练 集 ， 其 
余 1/3 分 配 到 检验 集 。 使 用 训练 集 导 出 模型 ， 其 准确 率 用 检验 集 估计 ( 见 图 8. 17) 。 估 计 是 
悲观 的 ， 因 为 只 有 一 部 分 初始 数据 用 于 导出 模型 。 








图 8.17 用 保持 方法 估计 准确 率 


随机 二 次 抽样 〈 random subsampling) 是 保持 方法 的 一 种 变形 ， 它 将 保持 方法 重复 上 次 。 
总 准确 率 估计 取 每 次 迭代 准确 率 的 平均 值 。 


8.5.3 交叉 验证 


在 k- 折 交叉 验证 (k-fold cross-validation) 中 ， 初 始 数据 随机 地 划分 成 大 个 互 不 相交 的 子 
集 或 “ 折 ” 己 ， 旋 ，…， 以 ， 每 个 折 的 大 小 大 致 相等 。 训 练 和 检验 进行 大 次 。 在 第 站 次 先 
R, DE D, 用 做 检验 集 ， 其 余 的 分 区 一 起 用 做 训练 模型 。 也 就 是 说 ， 在 第 一 次 迭代 ， 子 集 
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D,, +, D, 一 起 作为 训练 集 ， 得 到 第 一 个 模型 ， 并 在 D 上 检验 ; 第 二 次 迭代 在 子 集 D, 
D;, «+, D, 上 训练 ， 并 在 D, 上 检验 ; 如 此 下 去 。 与 上 面 的 保持 和 随机 二 次 抽样 不 同 ， 这 里 
每 个 样本 用 于 训练 的 次 数 相 同 ， 并 且 用 于 检验 一 次 。 对 于 分 类 ， 准 确 率 估计 是 左 次 迭代 正确 
分 类 的 元 组 总 数 除 以 初始 数据 中 的 元 组 总 数 。 

留 一 (leave-one-out) 是 k- 折 交叉 验证 的 特殊 情况 ， 其 中 上 设置 为 初始 元 组 数 。 也 就 是 
说 ， 每 次 只 给 检验 集 “ 留 出 ”一 个 样本 。 在 分 层 交 叉 验 证 (stratified cross-validation) 中 ， 
折 被 分 层 ， 使 得 每 个 折 中 样本 的 类 分 布 与 在 初始 数据 中 的 大 致 相同 。 

一 般 地 ， 建 议 使 用 分 层 10- 折 交叉 验证 估计 准确 率 〈 即 使 计算 能 力 允 许 使 用 更 多 的 折 ) ， 
因为 它 具 有 相对 较 低 的 偏 傈 和 方差 。 


8. 5.4 自助 法 

与 上 面 提 到 的 准确 率 估 计 方 法 不 同 ， 自 助 法 (bootstrap) 从 给 定 训练 元 组 中 有 放 回 的 均 
匀 抽 样 。 也 就 是 说 ， 每 当选 中 一 个 元 组 ， 它 等 可 能 地 被 再 次 选中 并 被 再 次 添加 到 训练 集中 。 
例如 ， 想 象 一 台 从 训练 集中 随机 选择 元 组 的 机 器 。 在 有 放 回 的 抽样 中 ， 介 许 机 器 多 次 选择 同 
一 个 元 组 。 

有 多 种 自助 方法 。 最 常用 的 一 种 是 .632 自助 法 ， 其 方法 如 下 。 假 设 给 定 的 数据 集 包含 
d 个 元 组 。 该 数据 集 有 放 回 地 抽样 4 次， 产生 d 个 样本 的 自助 样本 集 或 训练 集 。 原 数据 元 组 
中 的 某 些 元 组 很 可 能 在 该 样本 集中 出 现 多 次 。 没 有 进入 该 训练 集 的 数据 元 组 最 终 形成 检验 
集 。 假 设 进行 这 样 的 抽样 多 次 。 其 结果 是 ， 在 平均 情况 下 ，63. 2% 原 数据 元 组 将 出 现在 自助 
样本 中 ， 而 其 余 38. 8% 的 元 组 将 形成 检验 集 (因此 称 为 . 632 自助 法 ) 。 

“数字 63.2% 从 何 而 来 ?” 每 个 元 组 被 选中 的 概率 是 1/d， 因 此 未 被 选中 的 概率 是 (1 - 
1/d) 。 需 要 挑选 4 次 ， 因 此 一 个 元 组 在 d 次 挑选 都 未 被 选中 的 概率 是 (1 -1/d)?, WME d 
很 大 ， 该 概率 近似 为 e = 0. 368° 因此 36. 8% 的 元 组 未 被 选 为 训练 元 组 而 留 在 检验 集中 ， 
其 余 的 63. 2% 的 元 组 将 形成 训练 集 。 

可 以 重复 抽样 过 程 次 ， 其 中 在 每 次 迭代 中 ,使 用 当前 的 检验 集 得 到 从 当前 自助 样本 得 
到 的 模型 的 准确 率 佑 计 。 模 型 的 总 体 准确 率 则 用 下 式 估计 


Acc(M) = Y, (0.632 x Ace(M,) uu su +0.368 x Acc(M,) mans) (8.30) 


i=1 


HR, Ace(M;) 6m 是 自助 样本 i 得 到 的 模型 用 于 检验 集 i 的 准确 率 。Acc( M.,) ein ae EÉ 
助 样本 i 得 到 的 模型 用 于 原 数据 元 组 集 的 准确 率 。 对 于 小 数据 集 ， 自 助 法 效果 很 好 。 


8.5.5 使 用 统计 显著 性 检验 选择 模型 

假设 已 经 由 数据 产生 了 两 个 分 类 模型 M, 和 M,。 已 经 进行 10 折 交 叉 验 证 ， 得 到 了 每 个 
的 平均 错误 率 ”。“ 如 何 确定 哪个 模型 最 好 ?” 直 观 地 ， 可 以 选择 具有 最 低 错误 率 的 模型 。 然 
而 ,平均 错误 率 只 是 对 未 来 数据 真实 总 体 上 的 错误 估计 。10 折 交 叉 验 证 实验 的 错误 率 之 
间 可 能 存在 相当 大 的 方差 。 尽管 由 M 和 M, 得 到 的 平均 错误 率 看 上 去 可 能 不 同 ,但 是 差 
别 可 能 不 是 统计 显著 的 。 如 果 两 者 之 间 的 差别 可 能 只 是 偶然 的 ， 怎么 办 ? 本 节 讨 论 这 些 
问题 。 





O e。 是 自然 对 数 的 底 ， 即 e=2.718。 
© 回忆 一 下 ， 模 型 天 的 错误 率 是 1 -accuracy( M). 
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为 了 确定 两 个 模型 的 平均 错误 率 是 否 存在 “真正 的 ”差别 ， 需 要 使 用 统计 显著 性 检验 。 
此 外 ， 和 希望 得 到 平均 错误 率 的 置信 界 ， 使 得 我 们 可 以 做 出 这 样 的 陈述 : “对 于 未 来 样本 的 
95% ， 观 测 到 的 均值 将 不 会 偏离 正 、 负 两 个 标准 差 ”或 者 “一 个 模型 比 另 一 个 模型 好 ， 误 
差 幅度 为 +4% 。 

为 了 进行 统计 检验 ,我们 需要 什么 ? 假设 对 于 每 个 模型 ,我 们 做 了 10 次 10- 折 交叉 验 
证 ， 每 次 使 用 数据 的 不 同 的 10 折 划 分 。 每 个 划分 都 独立 地 抽取 。 可 以 分 别 对 M, 和 M, 得 到 
的 10 个 错误 率 取 平 均值 ， 得 到 每 个 模型 的 平均 错误 率 。 对 于 一 个 给 定 的 模型 ， 在 交叉 验证 
中 计算 的 每 个 错误 率 都 可 以 看 做 来 自 一 种 概率 分 布 的 不 同 的 独立 样本 。 一 般 地 ， 它 们 服从 具 
Ak-l 个 自由 度 的 1 分 布 ， 其 中 k=10。( 该 分 布 看 上 去 很 像 正 态 或 高 斯 分 布 ， 尽管 定 义 这 
两 个 分 布 的 函数 很 不 相同 。 两 个 分 布 都 是 单 峰 的 、 对 称 的 和 钟 形 的 。) 这 使 得 我 们 可 以 做 假 
设 检 验 ， 其 中 所 使 用 的 显著 性 检验 是 上 检验 ， 或 研究 者 的 上 检验 (student’s t-test), EHX 
两 个 模型 相同 换言之， 两 者 的 平均 错误 率 之 差 为 0。 如 果 我 们 能 够 拒绝 该 假设 ( 称 为 原 假 
设 (null hypothesis) ) ， 则 我 们 可 以 断言 两 个 模型 之 间 的 差 是 统计 显著 的 。 在 此 情况 下 ， 我 
们 可 以 选择 具有 较 低 错 误 率 的 模型 。 

在 数据 挖 扎实 践 中 ， 通 常 使 用 单个 检验 集 ， 即 可 能 对 Mi 和 M, 使 用 相同 的 检验 集 。 在 
这 种 情况 下 ， 对 于 10- 折 交叉 验证 的 每 一 轮 ， 逐 对 比较 每 个 模型 。 也 就 是 说 ， 对 于 10- 折 交 
叉 验 证 的 第 i 轮 ， 使 用 相同 的 交叉 验证 划分 得 到 M, 的 错误 率 和 M, 的 错误 率 。 设 err(M,); 
(或 err(M,),) ERA M (RM) 在 第 i 轮 的 错误 率 。 对 Mi 的 错误 率 取 平均 值得 到 M, 的 平 
HRE, A err(M)。 类 似 地 ,可 以 得 到 7(M,) 。 两 个 模型 差 的 方差 记 为 
var(M, -M,)。it- 检 验 计算 个 样本 具有 -1 自由 度 的 二 统计 量 。 在 我 们 的 例子 中 ， 上 =10， 
因为 这 里 的 个 样本 是 从 每 个 模型 的 10- 折 交叉 验证 得 到 的 错误 率 。 逐 对 比较 的 i- 统 计量 按 
FRITS: 

_ (M, ) - (My) 
7 /var(M, — M,)/k 





(8.31) 





其 中 
var(M, = Ma) = EE Lere(M,), = err(My), -( 现 (用 ) - FM)? (8.32) 


为 了 确定 Wi 和 M, 是 否 显著 不 同 ,计算 1 并 选择 显著 水 平 sig。 在 实践 中 ， 通 常 使 用 5% 或 
1% 的 显著 水 平 。 然 后 ， 在 标准 的 统计 学 教科 书 中 查找 上 分 布 表 。 通 常 ， 该 表 以 自由 度 为 行 ， 
显著 水 平 为 列 。 假 定 要 确定 M, AM, 之 间 的 差 对 总 体 的 95% (Bil sig =5% BK 0.05) 是 否 显 
著 不 同 。 需 要 从 该 表 查 找 对 应 于 上 - 1 个 自由 度 (对 于 我 们 的 例子 ， 自 由 度 为 9) 的 1 分 布 
值 。 然 而 ， 由 于 分 布 是 对 称 的 ， 通常 只 显示 分 布 上 部 的 百分点 。 因 此 ， 找 z = sig/2 = 
0.025 的 表 值 ， 其 中 z 也 称 为 置信 和 界 (confident limit)。 如 果 :>z 或 1< ~-z， 则 :和 值 落 在 拒 
斥 域 ， 在 分 布 的 尾部 。 这 意味 可 以 拒绝 M, 和 M, 的 均值 相同 的 原 假设 ， 并 断言 两 个 模型 
之 间 存 在 统计 显著 的 差别 。 否 则 ， 如 果 不 能 拒绝 原 假 设 ， 于 是 断言 W MM, 之 间 的 差 可 
能 是 随机 的 。 

如 果 有 两 个 检验 集 而 不 是 单个 检验 集 ， 则 使 用 上 检验 的 非 逐 对 版 本 ， 其 中 两 个 模型 的 均 
值 之 间 的 方差 估计 为 








var(M, - M,) = ee + arith) (8. 33) 


JOP, k Ak, 分 别 用 于 M, 和 M, 的 交叉 验证 样本 数 (在 我 们 的 情况 下 ，10- 折 交叉 验证 的 
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轮 ) 。 这 也 称 为 两 个 样本 的 上 检验 。 在 查 上 分布 表 时 ， 自 由 度 取 两 个 模型 的 最 小 自由 度 。 


8.5.6 基于 成 本 效益 和 ROC 曲线 比较 分 类 器 


真正 例 、 真 负 例 、 假 正 例 和 假 负 例 也 可 以 用 于 评估 与 分 类 模型 相关 联 的 成 本 效益 (或 
风险 增益 ) 。 与 假 负 例 〈 如 错误 地 预测 癌症 患者 未 患 癌症 ) 相关 联 的 代价 比 与 假 正 例 (不正 
确 地 ， 但 保守 地 将 非 癌 症 患 者 分 类 为 癌症 患者 ) 相关 联 的 代价 大 得 多 。 在 这 些 情 部下 ， 通 
过 赋予 每 种 错误 不 同 的 代价 ， 可 以 使 一 种 类 型 的 错误 比 另 一 种 更 重要 。 这 些 代价 可 以 看 做 对 
病人 的 危害 ， 导 致 治疗 的 费用 和 其 他 医院 开销 。 类 做 地 ， 与 真正 例 决策 相关 联 的 效益 也 可 能 
不 同 于 真 负 例 。 到 目前 为 止 ， 为 计算 分 类 器 的 准确 率 ， 一 直 假 定 相 等 的 代价 ， 并 用 真正 例 和 
真 负 例 之 和 除 以 检验 元 组 总 数 。 

作为 选择 ， 通 过 计算 每 种 决策 的 平均 成 本 (或 效益 ) ， 可 以 考虑 成 本 效益 。 涉 及 成 本 效 
益 的 其 他 应 用 包括 贷款 申请 决策 和 目标 营销 广告 邮寄 。 例 如 ， 贷 款 给 一 个 拖欠 者 的 代价 远 超 
过 拒绝 贷款 给 一 个 非 拖 欠 者 导致 的 商机 损失 的 代价 。 类 似 地 ， 在 试图 识别 响应 促销 邮寄 广告 
的 家 庭 的 应 用 中 ， 向 大 量 不 理 皮 的 家 庭 邮 寄 广 告 的 代价 可 能 比 不 向 本 来 可 能 响应 的 家 庭 邮 寄 
广告 导致 的 商机 损失 的 代价 更 重要 。 在 总 体 分 析 中 考虑 的 其 他 代价 包括 收集 数据 和 开发 分 类 
工具 的 开销 。 

接收 者 操作 特征 (Receiver Operating Characteristic, ROC) 曲线 是 一 种 比较 两 个 分 类 模 
型 有 用 的 可 视 化 工具 。ROC 曲线 源 于 信号 检测 理论 ， 是 第 二 次 世界 大 战 期 间 为 雷达 图 像 分 
析 开 发 的 。ROC 曲线 显示 了 给 定 模 型 的 真正 例 率 (TPR) 和 假 正 例 率 (FPR) 之 间 的 权 
衡 ” 。 给 定 一 个 检验 集 和 模型 ，7PR 是 该 模型 正确 标记 的 正 (或 “yes”) 元 组 的 比例 ; 而 
FPR 是 该 模型 错误 标记 为 正 的 负 (或 “no”) 元 组 的 比例 。 假 定 TP. FP. PAN 分 别 是 真 


正 例 、 假 正 例 、 正 和 负 元 组 数 ， 由 8. 5.1 节 ， 我 们 知道 TPR = 等 ， 这 是 灵敏 度 。 此 外 ， 


TFR = m ， 它 是 1 - specificity , 

对 于 二 类 问题 ，ROC 曲线 使 得 我 们 可 以 对 检验 集 的 不 同 部 分 ， 观 察 模型 正确 地 识别 正 
实例 的 比例 与 模型 错误 地 把 负 实 例 识别 成 正 实例 的 比例 之 间 的 权衡 。TPR 的 增加 以 FPR 的 
增加 为 代价 。ROC 曲线 下 方 的 面积 是 模型 准确 率 的 度量 。 

为 了 绘制 给 定 分 类 模型 M 的 ROC 曲线 ， 模型 必须 能 够 返回 每 个 检验 元 组 的 类 预测 概 
率 。 使 用 这 些 信息 ， 对 检验 元 组 定 秩 和 排序 ， 使 得 最 可 能 属于 正 类 或 “yes” 类 的 元 组 出 现 
在 表 的 顶部， 而 最 不 可 能 属于 正 类 的 元 组 放 在 该 表 的 底部 。 朴 素 贝 叶 斯 (8.3 节 ) 和 后 向 传 
播 (9.2 节 ) 分 类 器 都 返回 每 个 预测 的 类 概率 分 布 ， 因 而 是 合适 的 。 而 其 他 分 类 器 ， 如 决策 
树 分 类 器 〈8. 2 节 )， 可 以 很 容易 地 修改 ， 以 便 返 回 类 概率 预测 。 对 于 给 定 的 元 组 苹 ， 设 概 
率 分 类 器 返回 的 值 为 所 于) 一 [0，1] 。 对 于 二 类 问题 ， 通 常 选择 阔 值 +， 使 得 成 节 ) Se 的 元 
组 下 视 为 正 的 ， 而 其 他 元 组 视 为 负 的。 注意 ， 真 正 例 数 和 假 正 例 数 都 是 上 的 函数 ， 因 此 可 以 
把 它们 表示 成 TP(1) 和 FP(1)。 二 者 都 是 单调 减 函 数 。 

首先 介绍 绘制 ROC 曲线 的 一 般 思想 ， 然 后 给 出 一 个 例子 。ROC 曲线 的 垂直 轴 表 示 TPR, 
水 平 轴 表 示 FPR。 为 了 绘制 M 的 ROC HR, METAF OXY, TPR = FPR =0) ， 检 查 
列表 项 部 元 组 的 实际 类 标号 。 如 果 它 是 真正 例 元 组 ( 即 正确 地 分 类 的 正 元 组 )， 则 7P 增加 ， 





O 在 第 5 章 ， 这 个 检验 用 于 基于 OLAP 挖掘 的 抽样 立方 体 。 
名 TPR 和 FPR 是 两 个 进行 比较 的 操作 特征 。 
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从 而 TPR 增加 。 在 图 中 ， 向 上 移动 ， 并 绘制 一 个 点 。 如 果 模 型 把 一 个 负 元 组 分 类 为 正 ， 则 
有 一 个 假 正 例 ， 因 而 FP 和 FPR 都 增加 。 在 图 中 ， 向 右 移 动 并 绘制 一 个 点 。 该 过 程 对 排序 的 
每 个 检验 元 组 重复 ， 每 次 都 对 真正 例 在 图 中 向 上 移动 ， 而 对 假 正 例 向 右 移动 。 

例 8. 11 绘制 ROC 曲线 。 图 8. 18 显示 一 个 概率 分 类 器 对 10 个 检验 元 组 返回 的 概率 值 
(第 3 列 ) ， 按 概率 的 递减 序 排序 。 列 1 只 是 元 组 的 标识 号 ， 方 便 解 释 。 列 2 是 元 组 的 实际 类 
标号 。 有 5 个 正 元 组 和 5 个 负 元 组 ， 因 此 已 =5，N =5。 随 着 我 们 考察 每 个 元 组 的 已 知 类 标 
号 ,我 们 可 以 确定 其 他 列 TP、FP、TN、FN、7PR 和 FPR 的 值 。 从 元 组 1 开始 ， 该 元 组 具 
ARABS, WKS ABA, Ble =0.9, ee, DBA ATCA 1 为 正 ， 而 其 他 所 
有 元 组 为 负 。 由 于 元 组 1 的 实际 类 标号 为 正 ， 所 以 有 一 个 真正 例 ， 因 此 TP =1, 而 FP =0. 
在 其 余 9 个 元 组 中 ， 它 们 都 被 分 类 为 负 ，5 个 实际 为 负 (因此 TN =5) ， 其 余 4 个 实际 为 正 ， 


因此 FN =4。 可 以 计算 TPR = — = — =0.2, 而 FPR =0。 这样， 有 ROC 曲线 的 一 个 点 
(0.2, 0)。 





元 组 编号 
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图 8. 18 元 组 按 递减 得 分 排序 ， 其 中 得 分 是 概率 分 类 器 返回 的 值 


Sa, WEB: 为 元 组 2 的 概率 值 0.8， 因 而 该 元 组 现在 也 被 视 为 正 的 ， 而 元 组 3 ~ 10 
都 被 看 做 负 的 。 元 组 2 的 实际 类 标号 为 正 ， 因 而 现在 TP =2。 该 行 剩 下 的 都 容易 计算 ， 产生 
点 (0.4, 0)。 接 下 来 ， 考察 元 组 3 的 类 标号 并 令 1=0.7， 分 类 器 为 该 元 组 返回 的 概率 值 。 
因此 ， 元 组 3 被 看 做 是 正 的 ， 但 它 的 实际 类 标号 为 负 ， 因 而 它 是 一 个 假 正 例 。 因 此 ，7P 不 
变 ，FP 递增 值 ， 所 以 FP =1。 该 行 的 其 他 值 也 容易 计算 ， 产生 点 (0.4，0.2)。 通 过 考察 每 
个 元 组 ， 结 果 ROC 曲线 是 一 个 锯齿 线 ， 如 图 8. 19 所 示 。 

有 许多 方法 可 以 从 这 些 点 得 到 一 条 曲线 ， 最 常用 的 是 凸 包 。 该 图 还 显示 一 条 对 角 线 ， 
对 模型 的 每 个 真正 例 元 组 ， 好 像 都 恰好 遇 到 一 个 假 正 例 。 为 了 比较 ， 这 条 直线 代表 随机 
猜测 。 

图 8. 20 显示 两 个 分 类 模型 的 ROC 曲线 。 该 图 还 显示 了 一 条 对 角 线 ， 代 表 随 机 猜测 。 模 
型 的 ROC 曲线 离 对 角 线 越 近 ， 模 型 的 准确 率 越 低 。 如 果 模 型 真 的 很 好 ， 则 随 着 有 序列 表 向 
下 移动 ， 开 始 可 能 会 遇 到 真正 例 元 组 。 这 样 ， 曲 线 将 陡峭 地 从 0 开始 上 升 。 后 来 ， 遇 到 的 真 
正 例 元 组 越 来 越 少 ， 假 正 例 元 组 越 来 越 多 ， 曲 线 平缓 并 变 得 更 加 水 平 。 

为 了 评估 模型 的 准确 率 ， 可 以 测量 曲线 下 方 的 面积 。 有 一 些 软件 包 可 以 用 来 进行 这 些 计 
算 。 面 积 越 接 近 0.5， 对 应 模型 的 准确 率 越 低 。 完 全 正确 的 模型 面积 为 1. 0。 


第 8 章 分 类 : 基本 概念 








% 


0.8 


> 
个 
We 





真正 例 率 (TPR) 
© 
EN 


> 
iv 











T T T_ T T TT . 
0 02 0.4 0.6 0.8 1.0 00 O02 04 06 08 1.0 
假 正 例 率 (FPR) 假 正 例 率 


图 8.19 图 8.18 的 数据 的 ROC 曲线 图 8.20 两 个 分 类 模型 M, 和 M, 的 ROC 曲线 。 对 
角 线 显示 ， 对 于 每 个 真正 例 ， 都 等 可 能 地 
遇 到 一 个 假 正 例 。ROC 曲线 越 接 近 该 对 角 
线 ， 模 型 越 不 准确 。 因 此 ，M, 更 准确 


8.6 提高 分 类 准确 率 的 技术 

本 节 将 学 习 提高 分 类 准确 率 的 一 些 技巧 。 我 们 关注 组 合 方 法 。 组 合 分 类 器 (ensemble) 
是 一 个 复合 模型 ， 由 多 个 分 类 器 组 合 而 成 。 个 体 分 类 器 投票 ， 组 合 分 类 器 基于 投票 返回 类 标 
号 预测 。 组 合 分 类 器 往往 比 它 的 成 员 分 类 器 更 准确 。 在 8. 6. 1 节 ， 我 们 从 一 般 性 介绍 组 合 分 
类 方法 开始 。 装 袋 (8. 6.2 节 )、 提 升 (8.6.3 节 ) 和 随机 森林 (8. 6.4 节 ) 都 是 流行 的 组 
合 分 类 方法 。 

传统 的 学 习 模 型 假定 数据 类 是 良 分 布 的 。 然 而 ， 在 现实 世界 的 许多 领域 中 ， 数 据 是 类 不 
平衡 的 ， 其 中 感 兴趣 的 主 类 只 有 少量 元 组 。 这 称 为 类 不 平衡 问题 。 我 们 还 研究 提高 类 不 平衡 
数据 分 类 准确 率 的 技术 。 这 些 在 8.6.5 节 介 绍 。 


8.6.1 组 合 分 类 方法 简介 


装 裳 、 提 升 和 随机 森林 都 是 组 合 分 类 方法 的 例子 ( 见 图 8. 21) 。 组 合 分 类 把 k NI 
到 的 模型 (或 基 分 类 器 ) M, ，M,，…，M 组 合 在 一 起 ， 引 在 创建 一 个 改进 的 复合 分 类 模型 
M* 。 使 用 给 定 的 数据 集 D 创建 个 训练 集 D,，D,，…，D;， 其 中 D: 用 于 创建 分 类 器 Mi。 
给 定 一 个 待 分 类 的 新 数据 元 组 ， 每 个 基 分 类 器 通过 返回 类 预测 投票 。 组 合 分 类 器 基于 基 分 类 
器 的 投票 返回 类 预测 。 

组 合 分 类 器 往往 比 它 的 基 分 类 器 更 准确 。 例 如 ， 考 虑 一 个 进行 多 数 表 决 的 组 合 分 类 器 。 
也 就 是 说 ， 给 定 一 个 待 分 类 元 组 于 ， 它 收集 由 基 分 类 器 返回 的 类 标号 预测 ， 并 输出 占 多 数 的 
类 。 基 分 类 器 可 能 出 错时 ， 但 是 仅 当 超过 一 半 的 基 分 类 器 出 错时 ， 组 合 分 类 器 才 会 误 分 类 
于 。 当 模型 之 间 存 在 显著 差异 时 ， 组 合 分 类 器 产生 更 好 的 结果 。 也 就 说 ， 理 想 地 ， 基 分 类 器 
之 间 几 乎 不 相关 。 基 分 类 器 还 应 该 优 于 随机 猜测 。 每 个 基 分 类 器 都 可 以 分 配 到 不 同 的 CPU 
上 ， 因 此 组 合 分 类 方法 是 可 并 行 的 。 
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图 8.21 提高 模型 的 准确 率 : 组 合 分 类 方法 产生 一 系列 分 类 模型 MH,，M, ，…，M;。 给 定 一 个 
待 分 类 的 新 数据 元 组 ， 每 个 基 分 类 器 对 该 元 组 的 类 标号 “投票 。 组 合 分 类 器 组 合 这 
些 投票 返回 类 预测 
为 了 帮助 解释 组 合 分 类 的 能 力 ， 考 虑 一 个 被 两 个 属性 % 和 x, 描述 的 二 类 问题 ， 这 个 问 
题 有 一 个 线性 决策 边界 。 图 8. 22a 显示 了 该 问题 的 决策 树 分 类 器 的 决策 边界 。 图 8. 22b 显示 
相同 问题 的 决策 树 的 组 合 分 类 器 的 决策 边界 。 尽 管 组 合 分 类 器 的 决策 边界 仍然 是 分 段 常数 ， 
[B378] 但 是 它 具 有 更 好 的 解 并 且 比 单 棵 树 好 。 
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图 8. 22 一 个 线性 可 分 问题 ( 即 实际 的 决策 边界 是 一 条 直线 ) 的 决策 边界 : a) 单 棵 决策 树 ; 
b) 决策 树 的 组 合 分 类 器 。 决 策 树 努 力 近 似 线性 边界 。 组 合 分 类 器 更 接近 于 真实 的 边 
Ro WA Seni 和 了 Ider[ SE10 ] 


8.6.2 i 


Fe WAS ERAS (bagging) 如 何 作为 一 种 提高 准确 率 的 方法 。 假 设 你 是 一 个 病人 ， 
希望 根据 你 的 症状 做 出 诊断 。 你 可 能 选择 看 多 个 医生 ， 而 不 是 一 个 。 如 果 某 种 诊断 比 其 他 诊 
断 出 现 的 次 数 多 ， 则 你 可 能 将 它 作为 最 终 或 最 好 的 诊断 。 也 就 是 说 ， 最 终 诊断 是 根据 多 数 表 
决 做 出 的 ， 其 中 每 个 医生 都 具有 相同 的 投票 权重 。 现 在 ， 将 医生 换 成 分 类 器 ， 你 就 可 以 得 到 
装 袋 的 基本 思想 。 直 观 地 ， 更 多 医生 的 多 数 表决 比 少数 医生 的 多 数 表决 更 可 靠 。 

给 定 d 个 元 组 的 集合 D, AH (bagging) 过 程 如 下 。 对 于 和 迭代 i (i=l, 2, =, k), d 
个 元 组 的 训练 集 D 采用 有 放 回 抽样 ， 由 原始 元 组 集 D 抽取 。 注 意 ， 术 语 装 党 表示 自助 聚集 
(bootstrap aggregation) 。 每 个 训练 集 都 是 一 个 自助 样本 ， 如 8. 5.4 节 所 介绍 的 那样 。 由 于 使 
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用 有 放 回 抽样 ,，D 的 某 些 元 组 可 能 不 在 D, 中 出 现 ， 而 其 他 元 组 可 能 出 现 多 次 。 由 每 个 训练 
RD 学 习 ， 得 到 一 个 分 类 模型 M,。 为 了 对 一 个 未 知 元 组 对 分 类 ， 每 个 分 类 器 M, 返回 它 的 
类 预测 ， 算 作 一 票 。 装 袋 分 类 器 1 "统计 得 票 ， 并 将 得 票 最 高 的 类 赋予 大。 通过 取 给 定 检验 
元 组 的 每 个 预测 的 平均 值 ， 装 袋 也 可 以 用 于 连续 值 的 预测 。 算 法 汇总 在 图 8. 23 中 。 


Hk: 装 猜 。 装 袋 算法 一 一 为 学 习 方 案 创 建 组 合 分 类 模型 ,其 中 每 个 模型 给 出 等 权重 预测 。 
输入 : 
。 D: a 个 训练 元 组 的 集合 ; 
。 k: 组 合 分 类 器 中 的 模型 数 ; 
， 一 种 学 习 方案 (例如 ,决策 树 算法 、 后 向 传播 等 ) 
输出 : 组 合 分 类 器 一 复合 模型 M* 。 
方法 : 
(1) for i = 1 to k do // 创建 k 个 模型 
(2) 通过 对 D 有 放 回 抽样 ， 创 建 自助 样本 D;; 
(3) 使 用 Dp, 和 学 习 方 法 导出 模型 M,; 
(4) endfor 





使 用 组 合 分 类 器 对 元 组 x 分 类 : 
让 k 个 模型 都 对 X 分 类 并 返回 多 数 表决 ; 
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装 袋 分 类 器 的 准确 率 通 常 显著 高 于 从 原 训 练 集 忆 导出 的 单个 分 类 器 的 准确 率 。 对 于 了 品 
声 数据 和 过 分 拟 合 的 影响 ， 它 也 不 会 很 差 并 且 更 鲁 棒 。 准 确 率 的 提高 是 因为 复合 模型 降低 了 
个 体 分 类 器 的 方差。 


8.6.3 提升 和 AdaBoost 


现在 考察 组 合 分 类 方法 提升 。 与 8. 6. 2 节 一 样 ， 假 设 你 是 一 位 患者 ， 有 某 些 症 状 。 你 选 
择 咨询 多 位 医生 ， 而 不 是 一 位 。 假 设 你 根据 医生 先前 的 诊断 准确 率 ， 对 每 位 医生 的 诊断 赋予 
一 个 权重 。 然 后 ， 这 些 加 权 诊 断 的 组 合作 为 最 终 的 诊断 。 这 就 是 提升 的 基本 思想 。 

EHA (boosting) 方法 中 ， 权 重 赋予 每 个 训练 元 组 。 和 迭代 地 学 习 上 个 分 类 器 。 学 习 得 
到 分 类 器 M; 之后， 更 新 权重 ,使 得 其 后 的 分 类 器 M,a “EAE” M 误 分 类 的 训练 元 组 。 
最 终 提升 的 分 类 器 M "组 合 每 个 个 体 分 类 器 的 表决 ， 其 中 每 个 分 类 器 投票 的 权重 是 其 准确 率 
的 函数 。 

Adaboost (Adaptive Boosting) 是 一 种 流行 的 提升 算法 。 假 设 我 们 想 提 升 某 种 学 习 方 法 
的 准确 率 。 给 定数 据 集 D， 它 包含 d 个 类 标记 的 元 组 (X, y), (Xr, 2). os (Ky, ya), 
其 中 和 ETCH X, 的 类 标号 。 开 始 ，Adaboost 对 每 个 训练 元 组 赋予 相等 的 权重 1/d。 为 组 合 
分 类 器 产生 上 个 基 分 类 器 需要 执行 算法 的 其 余部 分 轮 。 在 第 i 轮 ， 从 D 中 元 组 抽样 ， 形 成 
大 小 为 d 的 训练 集 D;。 使 用 有 放 回 抽样 一 一 向 一 个 元 组 可 能 被 选中 多 次 。 每 个 元 组 被 选中 
的 机 会 由 它 的 权重 决定 。 从 训练 集 D: 导出 分 类 器 M,。 然 后 使 用 D 作为 检验 集 计算 M, 的 误 
差 。 训 练 元 组 的 权重 根据 它们 的 分 类 情况 调整 。 

如 果 元 组 不 正确 地 分 类 ， 则 它 的 权重 增加 。 如 果 元 组 正确 分 类 ， 则 它 的 权重 减少 。 元 组 
的 权重 反映 对 它们 分 类 的 困难 程度 一 -权重 越 高 ， 越 可 能 错误 地 分 类 。 然 后 ， 使 用 这 些 权 
重 ， 为 下 一 轮 的 分 类 器 产生 训练 样本 。 其 基本 思想 是 ， 当 建立 分 类 器 时 ， 希 望 它 更 关注 上 一 
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轮 误 分 类 的 元 组 。 某 些 分 类 器 对 某 些 “困难 ”元 组 分 类 可 能 比 其 他 分 类 器 好 。 这 样 ， 建 立 
了 一 个 互补 的 分 类 器 系列 。 算 法 汇总 在 图 8. 24 中 。 


算法 : Adaboost, 一 种 提升 算法 一 一 创建 分 类 器 的 组 合 。 每 个 给 出 一 个 加 权 投 票 。 
输入 : 

，D: 类 标记 的 训练 元 组 集 。 

" k: 轮 数 〈 每 轮 产生 一 个 分 类 器 ) 。 

"一 种 分 类 学 习 方案 。 
输出 : 一 个 复合 模型 。 





方法 : 
(1) 将 D 中 每 个 元 组 的 权重 初始 化 为 1/a; 
(2) fori = 1 to k do // 对 于 每 一 轮 


(3) ”根据 元 组 的 权重 从 2 中 有 放 回 抽样 ,得 到 Zi 

(4) ”使 用 训练 集 忆 导出 模型 M,; 

(5) 计算 M; 的 错误 率 error (M,) (8.3430) 

(6) iferror(M,) > 0.5 then 

(7) 转 步骤 (3) 重 试 ; 

(8) endif 

(9) ”forD; 的 每 个 被 正确 分 类 的 元 组 do 

(10) TOM LB RUerror(M,)/(1-error(M,)); // 更 新 权重 
D ”规范 化 每 个 元 组 的 权重 ; 

(12) endfor 


使 用 组 合 分 类 器 对 元 组 x 分 类 : 


(1) ”将 每 个 类 的 权重 初始 化 为 0; 


Q) fori=1 tok do // 对 于 每 个 分 类 器 

(3) w=log terror (Ms) , // 分 类 器 的 投票 权重 
error (M,) 

(4) c=M,(x); // 从 M, 得 到 X 的 类 预测 


(5) 将 w; 加 到 类 c 的 权重 ，; 
(6) endfor 
(7) “返回 具有 最 大 权重 的 类 ; 











图 8. 24 Adaboost， 一 种 提升 算法 


现在 ， 让 我 们 考察 该 算法 涉及 的 某 些 数学 问题 。 为 了 计算 模型 W; 的 错误 率 ， 求 M, 误 分 
类 D, 中 的 每 个 元 组 的 加 权 和 。 即 ， 


error(M,) = Èw; x err( X,) l (8.34) 


FOP, err(X;) 是 元 组 X, 的 误 分 类 误差 : 如 果 X, BIRD, Mer(X,) X1; BM, EH 
0。 如 果 分 类 器 M, 的 性 能 太 差 ， 错 误 率 超过 0. 5， 则 丢弃 它 ， 并 重新 产生 新 的 训练 集 D,， 由 
它 导 出 新 的 Mo 

M: 的 错误 率 影响 训练 元 组 权重 的 更 新 。 如 果 一 个 元 组 在 第 ;i 轮 正确 分 类 ， 则 其 权重 乘 
以 error( M;)/ (1 -error(M,) )。 一 旦 所 有 正确 分 类 元 组 的 权重 都 被 更 新 ， 就 对 所 有 元 组 的 权 
E (包括 误 分 类 的 元 组 ) 规范 化 ， 使 得 它们 的 和 与 以 前 一 样 。 为 了 规范 化 权重 ， 将 它 乘 以 
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旧 权 重 之 和 ， 除 以 新 权重 之 和 。 结 果 ， 正 如 上 面 介绍 的 一 样 ， 误 分 类 元 组 的 权重 增加 ， 而 正 
确 分 类 元 组 的 权重 减少 。 l 

“一 旦 提升 完成 ， 如 何 使 用 分 类 器 的 组 合 预测 元 组 四 的 类 标号 ?” 不 像 装 袋 将 相同 的 表 
决 权 赋予 每 个 分 类 器 ， 提 升 根 据 分 类 器 的 分 类 情况 ， 对 每 个 分 类 的 表决 权 赋 予 一 个 权重 。 分 
类 器 的 错误 率 越 低 ， 它 的 准确 率 就 越 高 ， 因 此 它 的 表决 权重 就 应 当 越 高 。 分 类 器 M, 的 表决 
权重 为 

1 1 — error(M.) 

°g error( M, ) 
对 于 每 个 类 c， 对 每 个 将 类 RA X 的 分 类 器 的 权重 求 和 。 具 有 最 大 权重 和 的 类 是 “ 赢 
家 ”， 并 返回 作为 元 组 天 的 类 预测 。 

“提升 与 装 尝 相 比 ， 情 况 如 何 ?” 由 于 提升 关注 误 分 类 元 组 ， 所 以 存在 结果 复合 模型 对 
数据 过 分 拟 合 的 危险 。 因 此 ,“ 提 升 的 ”结果 模型 有 时 可 能 没有 从 相同 数据 导出 的 单一 模型 
的 准确 率 高 。 装 袋 不 太 受 过 分 拟 合 的 影响 。 尽 管 与 单个 模型 相 比 ， 两 者 都 能 够 显著 提高 准确 
Z, 但 是 提升 往往 得 到 更 高 的 准确 率 。 


8.6.4 随机 森林 


现在 ， 介 绍 另 一 种 组 合 方法 ， 称 为 随机 森林 。 想 象 组 合 分 类 器 中 的 每 个 分 类 器 都 是 一 棵 
决策 树 ， 因 此 分 类 器 的 集合 就 是 一 个 “森林 ”。 个 体 决 策 树 在 每 个 结 点 使 用 随机 选择 的 属性 
决定 划分 。 更 准确 地 说 ， 每 一 棵 树 都 依赖 于 独立 抽样 ， 并 与 森林 中 所 有 树 具 有 相同 分 布 的 随 
机 向 量 的 值 。 分 类 时 ， 每 棵 树 都 投票 并 且 返 回 得 票 最 多 的 类 。 

随机 森林 可 以 使 用 装 袋 (8.6.2 节 ) 与 随机 属性 选择 结合 来 构建 。 给 定 d 个 元 组 的 训练 
集 D， 为 组 合 分 类 器 产生 上 棵 决策 树 的 一 般 过 程 如 下 。 对 于 每 次 迭代 i(i=1,，2，…, k), 
使 用 有 放 回 抽样 ， 由 D 产生 d 个 元 组 的 训练 集 D;。 也 就 是 说 ， 每 个 D; 都 是 D 的 一 个 自助 样 
本 (8.5.4 节 )， 使 得 某 些 元 组 可 能 在 D; 出 现 多 次 ， 而 另 一 些 可 能 不 出 现 。 设 下 是 用 来 在 每 
个 结 点 决定 划分 的 属性 数 ， 其 中 下 远 小 于 可 用 属性 数 。 为 了 构造 决策 树 分 类 器 Wi ， 在 每 个 
结 点 随机 选择 下 个 属性 作为 该 结 点 划分 的 候选 属性 。 使 用 CART 算法 的 方法 来 增长 树 。 树 增 
长 到 最 大 规模 ， 并 且 不 剪 枝 。 用 这 种 方式 ， 使 用 随机 输入 选择 形成 的 随机 森林 称 为 
Forest- RI, 

随机 森林 的 另 一 种 形式 称 为 Forest- RC， 使 用 输入 属性 的 随机 线性 组 合 。 它 不 是 随机 地 
选择 一 个 属性 子 集 ， 而 是 由 己 有 属性 的 线性 组 合 创建 一 些 新 属性 〈 特 征 ) 。 即 一 个 属性 由 指 
定 的 上 个 原 属性 组 合 产 生 。 在 每 个 给 定 的 结 点 ， 随 机 选择 工 个 属性 ， 并 且 以 从 [ -1，1] 
中 随机 选取 的 数 为 系数 相 加 。 产 生 玉 个 线性 组 合 ， 并 在 其 中 搜索 找到 最 佳 划 分 。 当 只 有 少 
量 属 性 可 用 时 ， 为 了 降低 个 体 分 类 器 之 间 的 相关 性 ， 这 种 形式 的 随机 森林 是 有 用 的 。 

随机 森林 的 准确 率 可 以 与 Adaboost 相 媲 美 ， 但 是 对 错误 和 离 群 点 更 鲁 棒 。 随 着 森林 中 
树 的 个 数 增加 ， 森 林 的 泛 化 误差 收敛 。 因 此 ， 过 拟 合 不 是 问题 。 随 机 森林 的 准确 率 依赖 于 个 
体 分 类 器 的 实力 和 它们 之 间 的 依赖 性 。 理 想 情 况 是 保持 个 体 分 类 器 的 能 力 而 不 提高 它们 的 相 
关 性 。 随 机 森林 对 每 次 划分 所 考虑 的 属性 数 很 敏感 。 通 常 选取 logd +1 个 属性 。( 一 个 有 趣 
的 观察 是 ， 使 用 单个 随机 选择 的 属性 可 能 导致 很 好 的 准确 率 ， 常 常 比 使 用 多 个 属性 更 高 。) 
由 于 随机 森林 在 每 次 划分 时 只 考虑 很 少 的 属性 ， 因 此 它们 在 大 型 数据 库 上 非常 有 效 。 它 们 可 
能 比 装 袋 和 提升 更 快 。 随 机 森林 给 出 了 变量 重要 性 的 内 在 估计 。 


(8. 35) 
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8.6.5 “提高 类 不 平衡 数据 的 分 类 准确 率 

本 节 再 次 考虑 类 不 平衡 问题 。 尤 其 是 ， 研 究 提 高 类 不 平衡 数据 分 类 准确 率 的 方法 。 

给 定 两 类 数据 ， 该 数据 是 类 不 平衡 的 ， 如 果 感 兴趣 的 主 类 (EX) 只 有 少量 元 组 代表 ， 
而 大 多 数 元 组 都 代表 负 类 。 对 于 多 类 不 平衡 数据 ， 每 个 类 的 数据 分 布 差别 显著 ， 其 中 ， 主 类 
或 感 兴趣 的 类 的 元 组 稀少 。 类 不 平衡 问题 与 代价 敏感 学 习 密 切 相关 ， 那 里 每 个 类 的 错误 代价 
并 不 相等 。 例 如 ， 在 医疗 诊断 中 ， 错 误 地 把 一 位 癌症 患者 诊断 为 健康 〈 假 阴性 ) 的 代价 远 
高 于 错误 地 把 一 个 健康 人 诊断 为 患 有 瘤 症 〈 假 阳性 ) 。 假 阴性 错误 可 能 导致 失去 生命 ， 因 此 
比 假 阳 性 错误 的 代价 高 得 多 。 类 不 平衡 数据 的 其 他 应 用 包括 欺诈 检测 、 从 卫星 雷达 图 像 检 测 
右 油 泄漏 和 故障 监测 。 

传统 的 分 类 算法 旨 在 最 小 化 分 类 误差 。 它 们 假定 : 假 正 例 和 假 负 例 错误 的 代价 是 相等 
的 。 由 于 假定 类 平衡 分 布 和 相等 的 错误 代价 ， 所 以 传统 的 分 类 算法 不 适合 类 不 平衡 数据 。 
本 章 前 面 介绍 了 一 些 处 理 类 不 平衡 问题 的 方法 。 尽 管 准确 率 度量 假定 各 类 的 代价 都 相等 ， 
但 是 可 以 使 用 不 同类 型 分 类 的 其 他 评估 度量 。 例 如 ，8. 5. 1 节 介绍 的 灵敏 度 或 召回 率 〈 真 
正 例 率 ) 和 特效 性 〈 真 负 例 率 ) ， 都 有 助 于 评估 分 类 器 正确 预测 类 不 平衡 数据 类 标号 的 能 
力 。 已 讨论 的 其 他 相关 度量 包括 F 和 Fs。8. 5.6 节 展 示 ROC 曲线 如 何 绘制 灵敏 性 与 1 - 
specificity 〈 即 假 正 例 率 ) 。 当 研究 分 类 器 在 不 平衡 数据 上 的 性 能 时 ， 这 种 曲线 可 以 提供 对 
数据 的 洞察 。 

本 节 考 察 提高 类 不 平衡 数据 分 类 准确 率 的 一 般 方 法 。 这 些 方法 包括 : (1) 过 抽样 ; 
(2) 欠 抽 样 ; (3) 阔 值 移动 ; (4) 组 合 技术 。 前 三 种 不 涉及 对 分 类 模型 结构 的 改变 。 也 就 
是 说 ， 过 抽样 和 欠 抽 样 改变 训练 集中 的 元 组 分 布 ， 阔 值 移动 影响 对 新 数据 分 类 时 模型 如 何 决 
策 。 组 合 方法 沿用 8. 6. 2 ~8. 6. 4 节 介绍 的 技术 。 为 了 便于 解释 ， 我 们 针对 两 类 不 平衡 数据 
问题 介绍 一 般 方法 ， 其 中 较 高 代价 的 类 比较 低 代价 的 类 稀少 。 

过 抽样 和 欠 抽 样 都 改变 训练 集 的 分 布 ， 使 得 稀有 (TE) 类 能 够 很 好 地 代表 。 过 抽样 对 
正 元 组 重复 采样 ， 使 得 结果 训练 集 包含 相同 个 数 的 正 元 组 和 负 元 组 。 欠 抽样 减少 负 元 组 的 数 
量 。 它 随机 地 从 多 数 ( 负 ) 类 中 删除 元 组 ， 直 到 正 元 组 与 负 元 组 的 数量 相等 。 

例 8. 12 ”过 抽样 与 欠 抽样 。 假 设 原 训 练 集 包含 100 个 正 元 组 和 1000 个 负 元 组 。 在 过 抽 
样 中 ， 复 制 稀有 类 元 组 ， 形 成 包含 1000 个 正 元 组 和 1000 个 负 元 组 的 新 训练 集 。 在 欠 抽 样 
中 ， 随 机 地 删除 负 元 组 ， 形 成 包含 100 个 正 元 组 和 100 个 负 元 组 的 新 训练 集 。 m 

存在 过 抽样 和 欠 抽 样 的 多 种 变形 。 它 们 可 能 因 如 何 增加 和 删除 元 组 而 异 。 例 如 ， 
SMOTE 算法 使 用 过 抽样 ， 把 元 组 空间 中 “靠近 ”给 定 的 诸 正 元 组 的 合成 元 组 添加 到 训练 集 。 

不 平衡 类 问题 的 阅 值 移动 (threshold-moving) 方法 不 涉及 抽样 。 它 用 于 对 给 定 输入 元 组 
返回 一 个 连续 输出 值 的 分 类 器 ( 像 8. 5.6 节 讨论 ROC 如 何 绘制 曲线 那样 ) 。 即 对 于 输入 元 组 
X， 这 种 分 类 器 返回 一 个 映射 FO) 一 [0，1] 作为 输出 。 该 方法 不 是 操控 训练 元 组 ， 而 是 基 
于 输出 值 返回 分 类 决策 。 最 简单 的 方法 是 ， 对 于 某 个 阔 值 +， 满足 成 X) Be 的 元 组 X RAA 
正 的 ， 而 其 他 元 组 被 看 做 负 的 。 其 他 方法 可 能 涉及 用 加 权 操 控 输出 。 一 般 而 言 ， 阔 值 移动 方 
法 移动 阔 值 *， 使 得 稀有 类 的 元 组 容易 分 类 (因而 ， 降 低 了 代价 高 的 假 阴 性 出 现 的 机 会 ) 。 
这 种 分 类 器 的 例子 包括 朴素 贝 时 斯 分 类 器 (8. 3 节 ) 和 后 向 传播 那样 的 神经 网 络 (9.2 节 ) 。 
阐 值 移动 方法 尽管 不 像 过 抽样 和 欠 抽 样 那么 流行 ， 但 是 它 简单 ， 并 且 对 于 两 类 不 平衡 数据 已 
经 表现 得 相当 成 功 。 
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组 合 方法 (8. 6.2 ~8.6.4 节 ) 也 已 经 用 于 类 不 平衡 问题 。 组 成 组 合 分 类 器 的 个 体 分 类 


器 可 以 使 用 上 面 介 绍 的 方法 ， 如 过 抽样 和 闭 值 移动 。 


上 面 介 绍 的 方法 对 两 类 任务 的 类 不 平衡 问题 相对 有 效 。 实 验 观察 表明 ， 闭 值 移动 和 组 合 


方法 优 于 过 抽样 和 欠 抽 样 。 即 便 在 非常 不 平衡 的 数据 集 上 ， 阔 值 移动 也 很 有 效 。 多 类 任务 上 
的 类 不 平衡 困难 得 多 ， 那 里 过 抽样 和 辣 值 移动 都 不 太 有 效果 。 尽 管 阐 值 移动 和 组 合 方法 表现 
出 了 希望 ,但 是 为 多 类 不 平衡 问题 寻找 更 好 的 解决 方案 依然 是 尚 待 解决 的 问题 。 


8.7 


8.8 
8.1 


8.2 
8.3 
8.4 
8.5 


8.6 
8.7 


。 朴素 贝 叶 斯 分 类 基于 后 验 概率 的 贝 叶 斯 定理 。 它 假定 类 条 件 独立 





小 结 


。 分 类 是 一 种 数据 分 析 形 式 ， 它 提取 找 述 数据 类 的 模型 。 分 类 器 或 分 类 模型 预测 类 别 标号 (类 )。 数 


值 预测 建立 连续 值 函数 模型 。 分 类 和 数值 预测 是 两 类 主要 的 预测 问题 。 


。 决策 树 归 纳 是 一 种 自 顶 向 下 递归 树 归 纳 算 法 ， 它 使 用 一 种 属性 选择 度量 为 树 的 每 个 非 树叶 结 点 选择 


属性 测试 。ID3 、C4. 5 和 CART 都 是 这 种 算法 的 例子 ， 它 们 使 用 不 同 的 属性 选择 度量 。 树 剪 枝 算 
法 试图 通过 剪 去 反映 数据 中 噪声 的 分 枝 ， 提 高 准确 率 。 早 期 的 决策 树 算法 通常 假定 数据 是 驻 留 内 存 
的 。 已 经 为 可 伸缩 的 树 归 纳 提出 了 一 些 可 伸缩 的 算法 ， 如 RainForest。 

一 个 属性 值 对 给 定 类 的 影响 独 





立 于 其 他 属性 的 值 。 


。 基于 规则 的 分 类 器 使 用 下 -THEN 规则 进行 分 类 。 规 则 可 以 从 决策 树 提取 ， 或 者 使 用 顺序 覆盖 算法 


直接 由 训练 数据 产生 。 


。 混淆 矩阵 可 以 用 来 评估 分 类 器 的 质量 。 对 于 两 类 问题 ， 它 显示 真正 例 、 真 负 鲍 、 假 正 例 、 假 负 例 。 


评估 分 类 器 预测 能 力 的 度量 包括 准确 率 、 灵 敏 度 〈 又 称 为 召回 率 ) 、 特 效 性 、 精 度 、F 和 FF。。 当 感 
兴趣 的 主 类 占 少数 时 ， 过 分 依赖 准确 率 度量 可 能 受骗 。 


。 分 类 器 的 构造 与 评估 需要 把 标记 的 数据 集 划 分 成 训练 集 和 检验 集 。 保 持 、 随 机 抽样 、 交 叉 验 证 和 自 


助 法 都 是 用 于 这 种 划分 的 典型 方法 。 


。 显著 性 检验 和 ROC 曲线 对 于 模型 选择 是 有 用 的 。 显 著 性 检验 可 以 用 来 评估 两 个 分 类 器 准确 率 的 差 


别 是 否 出 于 偶然 。ROC 曲线 绘制 一 个 或 多 个 分 类 器 的 真正 例 率 (或 灵敏 性 ) 与 假 正 例 率 (或 1 - 
specificity ) 。 


。 组 合 方 法 可 以 通过 学 习 和 组 合 一 系列 个 体 ( 基 ) 分 类 器 模型 提高 总 体 准 确 率 。 装 绕 、 提 升 和 随机 


森林 都 是 流行 的 组 合 方法 。 


。 当 感 兴趣 的 主 类 只 有 少量 元 组 代表 时 就 会 出 现 类 不 平衡 问题 。 处 理 这 一 问题 的 策略 包括 过 抽样 、 欠 


抽样 、 阅 值 移动 和 组 合 技术 。 


习题 
简 述 决策 树 分 类 的 主要 步骤 。 
在 决策 树 归纳 中 ， 为 什么 树 前 枝 是 有 用 的 ? 使 用 独立 的 元 组 集 评估 前 枝 有 什么 缺点 ? 
给 定 决 策 树 ， 选 项 有 : (a) 将 决策 树 转 换 成 规则 ， 然 后 对 结果 规则 前 枝 ; 或 Cb) HERTE, A 
后 将 剪 枝 后 的 树 转换 成 规则 。 相 对 于 (b), (a) 的 优点 是 什么 ? 
计算 决策 树 算法 在 最 坏 情况 下 的 计算 复杂 度 是 重要 的 。 给 定数 据 集 D， 属 性 数 n 和 训练 元 组 数 |D | ， 
证 明 决策 树 生长 的 计算 时 间 最 多 为 nx |D | xlog( |D | )。 
给 定 一 个 具有 50 个 属性 (每 个 属性 包含 100 ARE) 的 5GB 的 数据 集 ， 而 你 的 台式 机 有 512MB 内 
存 。 简 述 对 这 种 大 型 数据 集 构造 决策 树 的 一 种 有 效 算法 。 通 过 粗略 地 计算 主 存 的 使 用 说 明 你 的 答案 是 
正确 的 。 
为 什么 朴素 贝 叶 斯 分 类 称 为 “朴素 ”的 ? 简 述 朴素 贝 叶 斯 分 类 的 主要 思想 。 
下 表 由 雇员 数据 库 的 训练 数据 组 成 。 数 据 已 泛 化 。 例 如 ，age“31…35” 表 示 年 龄 在 31 ~35 之 间 。 对 
于 给 定 的 行 ，count 表示 department 、status 、age 和 salary 在 该 行 上 具有 给 定 值 的 元 组 数 。 





386 


252 


8.8 


8.9 


8. 10 
8. 11 


8. 12 
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department status age salary , count 

sales senior 31-35 46K---50K 30 
sales junior -26-30 26K---30K 40 
sales junior 31-35 31K---35K 40 
systems junior 21…25 46K…S0K 20 
systems senior 31---35 66K---70K 5 
systems junior 26…30 46K---50K 3 
systems senior 41:45 66K---70K 3 
marketing senior 36…40 46K---S0K 10 
marketing junior 31-35 41K---45K 4 
secretary senior 46---50 36K…40K 4 
secretary junior 26…30 26K…30K 6 
设 status 是 类 标号 属性 。 


(a) 如 何 修改 基本 决策 树 算法 ， 以 便 考虑 每 个 广义 数据 元 组 〈 即 每 个 行 ) 的 count? 

(b) 使 用 修改 过 的 算法 ， 构 造 给 定数 据 的 决策 树 。 

(c) 给 定 一 个 数据 元 组 ， 它 的 属性 department, age 和 salary 的 值 分别 为 “systems”、“26.…30” 和 
“46…50K”。 该 元 组 status 的 朴素 贝 叶 斯 分 类 是 什么 ? 

RainForest 是 一 种 可 伸缩 的 决策 树 归 纳 算 法 。 开 发 一 种 可 伸缩 的 朴素 贝 叶 斯 分 类 算法 。 对 于 大 多 数 数 

据 库 ， 它 只 需要 扫描 整个 数据 集 一 次 。 讨 论 这 种 算法 是 否 可 以 进一步 求 精 ， 结 合 提升 进一步 提高 分 类 

的 准确 率 。 

设计 一 种 方法 ， 对 无 限 的 数据 流 进行 有 效 的 朴素 贝 叶 斯 分 类 〈 即 只 能 扫描 数据 流 一 次 ) 。 如 果 想 发 现 

这 种 分 类 模式 的 演变 〈 例 如， 将 当前 的 分 类 模式 与 较 早 的 模式 进行 比较 ， 如 与 一 周 以 前 的 模式 相 

比 ) ， 你 有 何 修改 建议 ? 

证 明 准 确 率 是 灵 教 性 和 特效 性 度量 的 函数 ， 即 证 明 (8.25) 式 成 立 。 

调和 均值 是 多 种 平均 值 中 的 一 种 。 第 2 章 讨 论 了 如 何 计算 算术 均值 ， 这 是 大 部 分 人 计算 平均 值 所 想 

到 的 。 正 实数 x, ，x,，…， zx HMI WELW 





























H= n -7 

工 + 工 +1…+ 工 1 

“1 %2 £a iat Fi 
?度量 是 精度 和 召回 率 的 调和 均值 。 使 用 这 一 事实 为 推导 ag Tk ak ] 
(8.28) 式 。 此 外 ， 把 F, 写成 真正 例 、 假 负 例 和 假 正 例 的 函数 。 
图 8. 25 中 数据 元 组 已 经 按 分 类 器 返回 概率 值 的 递减 序 排序 。 对 于 | 1 P [os | 
每 个 元 组 ， 计 算 真正 例 (TP), EB (FP), AmB (TN) 和 | ? N 0.85 
假 负 例 (FN) 的 个 数 。 计 算 真 正 例 率 (TPR) 和 假 正 例 率 | 7 P 0.78 
(FPR) 。 为 该 数据 绘制 ROC 曲线 。 4 P 0.66 
当 一 个 数据 对 象 可 以 同时 属于 多 个 类 时 ， 很 难 评估 分 类 的 准确 率 。 | 5 N |060 
评述 在 这 种 情况 下 ， 你 将 使 用 何 种 标准 比较 在 相同 数据 上 建立 的 | 。 Po] 055 
不 同 分 类 器 。 7 N 0.53 
假设 在 两 个 预测 模型 M, 和 M, 之 间 进 行 选 择 。 已 经 在 每 个 模型 上 | 8 N |052 
T 10 轮 10- 折 交叉 验证 ， 其 中 在 第 i 轮 ， M, 和 MM, 都 使 用 相同 的 9 N 0.51 
数据 划分 。M 得 到 的 错误 率 为 30.5、32.2、 20.7, 20.6, 31.0, LI? |? 0.40 


41.0, 27.7, 28.0, 21.5, 28.0, M, 得 到 的 错误 率 为 22.4、 14.5, 图 8.25 元 组 按 递减 得 分 排 
22.4、19.6、20.7、20.4、22. 1 、19.4、18. 2、35.0。 评述 在 1% 序 ， 其 中 得 分 是 分 
显著 水 平 上 ， 一 个 模型 是 否 显著 地 比 另 一 个 好 。 类 器 返回 的 概率 值 
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8.15 ”什么 是 提升 ? 陈述 它 为 何 能 够 提高 决策 树 归 纳 的 准确 性 。 
8. 16 “概述 处 理 类 不 平衡 问题 的 方法 。 假 设 银行 想 开发 一 个 分 类 器 ， 预 防 信用 卡 交易 中 的 欺诈。 解释 基于 
大 量 非 若 诈 实例 和 很 少 的 欺诈 实例 ， 如 何 构造 高 质量 的 分 类 器 。 


8.9 文献 注释 

分 类 是 机 器 学 习 、 统 计 学 和 模式 识别 的 基本 课题 。 这 些 领 域 的 许多 教科 书 都 强调 分 类 方法 ， 如 Mitchell 
[ Mit97] ，Bishop[ Bis06 ] Duda, Hart 和 Stork [ DHSO1], ，Theodoridis 和 Koutroumbas [ TKO8 ] Hastie, Tib- 
shirani 和 Friedman{ HTF09 ] Alpaydin[ Alp11], Marsland[ Mar09 ] 。 

关于 决策 树 归纳 ，C4. 5 算法 在 JR Quinlan 的 书 中 介绍 | Qui93 ] 。CART 系统 的 细节 在 Breiman, Fried- 
man, Olshen 和 Stone 的 Classification and Regression Trees[ BFOS84] 中 给 出 。 这 两 本 书 都 对 决策 树 归 纳 的 许 
多 问题 给 出 了 很 好 的 介绍 。C4.5 有 一 个 商品 化 的 后 继 ， 称 为 C5.0， 可 以 在 www. rulequest. com 上 找到 。 
C4.5 前 驱 ID3 的 细节 在 [Qui86] 给 出 。ID3 扩展 了 由 Hunt, Marin 和 Stone[ HMS66] 介绍 的 关于 概念 学 习 
系统 的 先驱 者 的 工作 。 

其 他 决策 树 归纳 算法 包括 FACT( Loh 和 Vanichsetakul[ LV88]) , QUEST( Loh 和 Shih[ LS97]), PUBLIC 
( Rastogi 和 Shim[ RS98]) 和 CHAID(Kass[ Kas80] 和 Magidson[ Mag94] ) INFERULE (Uthurusamy、Fayyad 
和 Spangler[ UFS91]) 从 非 决 定性 的 数据 学 习 决 策 树 ， 得 到 的 是 概率 而 不 是 类 别 分 类 规则 。KATE ( Manago 
和 Kodratoff[ MK91]) 从 复杂 的 结构 化 数据 学 习 决 策 树 。ID3 的 增 量 版 本 包括 ID4 (Schlimmer 和 Fisher 
[SF86a]) 和 ID5 (Utgoff[ Utg88 ] ) ， 后 者 在 Utgoff, Berkman 和 Clouse[ UBC97] 中 被 扩展 。CART 的 一 个 增 
量 版 本 在 Crawford[ Cra89 ] 中 介绍 。BOAT (Gehrke, Ganti, Ramakrishnan 和 Loh[ GGRL99]) 是 一 种 处 理 数 
据 控 气 中 可 伸缩 性 问题 的 决策 树 算法 ， 也 是 增 量 的 。 其 他 处 理 可 伸缩 性 问题 的 决策 树 算法 包括 SLIQ (Me- 
hta, Agrawal 和 Rissanen[ MAR96 ] ) SPRINT( Shafer, Agrawal 和 Mehta[ SAM96]), RainForest( Gehrke, Ra- 
makrrishnan 和 Ganti[ GRG98 ] ) ， 以 及 早期 的 方法 ， 如 Catlet[ Cat91] ， 以 及 Chan 和 Stolfo[ CS93a，CS93b] 。 

涉及 决策 树 归 纳 的 许多 重要 问题 〈 如 属性 选择 和 剪 枝 ) 的 全 面 综述 见 Murthy[ Mur98 ] 。 基 于 感知 的 分 
类 (PBC) ， 一 种 决策 树 构 建 的 可 视 化 和 交互 的 方法 ， 由 Ankerst, Elsen, Ester 和 Kriegel[ AEEK99] 提出 。 

关于 属性 选择 度量 的 详细 讨论 见 Kononenko 和 Hong[KH97 ] 。 信 息 增益 由 Quinlan[ Qui86] 提出 ， 基 于 
Shannon 和 Weaver[ SW49 ] 的 信息 论 的 先驱 工作 。 增 益 率 作为 信息 增益 的 扩充 所 出， 被 [Qui93] 作为 C4. 5 
的 一 部 分 介绍 。 基 尼 指 数 是 为 CART 提出 的 ， 在 Breiman, Friedman, Olshen 和 Stone[ BFOS84] 中 。G- 统 计 
量 基 于 信息 论 ， 在 Sokal 和 Rohlf[SR81] 中 给 出 。 属 性 选择 度量 比较 包括 Buntine 和 Niblett[ BN92], Fayyad 
和 Irani[FI92 ] Kononenko[ Kon95], Loh 和 Shih[ LS97], ， 以 及 Shih[ Shi00 ] Fayyad 和 Irani[ FI92] 证 明了 
诸如 信息 增益 和 基尼 指数 等 基于 不 纯 性 度量 的 局 限 性 。 他 们 提出 了 一 类 属性 选择 度量 ， 称 为 C-SEP( Class 
SEParation ， 类 分 离 )。 这 些 度 量 在 某 些 情况 下 比 不 纯 性 度量 更 好 。 

Kononenko[ Kon95] 注意 到 基于 最 小 描述 长 度 原 则 的 属性 选择 度量 不 太 偏 向 多 值 属性 。Martin 和 Hir- 
schberg[ MH95] 证 明了 在 最 坏 情况 下 以 及 在 相当 一 般 的 条 件 下 ， 在 平均 情况 下 ， 决 策 树 归纳 的 时 间 复 杂 度 
随 树 的 高 度 指数 增长 。Fayyad 和 Irani[ FI90] 发 现 ， 对 于 大 量 领域 ， 浅 决策 树 (shallow decision trees) 往往 
具有 大 量 树叶 和 较 高 的 错误 率 。 属 性 (RAME) 构造 在 Liu 和 Motoda[ LM98, Le98] 中 介绍 。 

有 许多 决策 树 剪 枝 算法 ， 包 括 代价 复杂 性 剪 枝 〈Breiman Friedman, Olshen 和 Stone[ BFOS84 ] ) ， 减 少 
错误 剪 梳 〈Quinlan[ Qui87 ] ) AMAR WL IBY ( Quinlan [ Qui86] ) PUBLIC ( Rastogi 和 Shim[ RS98 ] ) 将 决 
策 树 构造 和 剪 枝 集成 在 一 起 。 基 于 MDL 的 剪 枝 方法 可 以 在 Quinlan 和 Rivest[ QR89 ] Mehta, Rissanen 和 
Agrawal[ MRA95], ， 以 及 Rastogi 和 Shim[ RS98] 中 找到 。 其 他 方法 包括 Niblett 和 Bratko[ NB86 ] Hosking, 
Pednault 和 Sadan [ HPS97 ] 。 剪 枝 方法 的 实验 比较 见 Mingers [ Min89 ] Malerba, Floriana 和 Semeraro 
[ MFS95 ] 。 关 于 简化 决策 树 的 综述 ， 见 Breslow 和 Aha[ BA97] 。 

贝 叶 斯 分 类 的 全 面 介 绍 可 以 在 Duda, Hart 和 Stork[ DHS01 ] ，Weiss 和 Kulikowski[ WK91] ， 以 及 Mitch- 
ell[ Mit97] 中 找到 。 当 类 条 件 独 立 性 不 成 立时 ， 朴 素 贝 叶 斯 分 类 的 预测 能 力 分 析 见 Domingos 和 Pazzani 
[DP96]。 对 于 朴素 贝 叶 斯 分 类 法 ， 连 续 值 属性 的 核 密 度 估计 ， 而 不 是 高 斯 估计 的 实验 在 John[ Joh97] 中 


H 
Ho 
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有 一 些 基于 规则 的 分 类 器 的 例子 。 这 些 例子 包括 AQ15 (Hong、Mozetic 和 Michalski[ HMM86 ] ) CN2 
(Clark 和 Niblett [ CN89 ] ) ITRULE ( Smyth 和 Goodman [ SG92]), RISE ( Domingos [ Dom94]), IREP 
(Furnkranz 和 Widmer [ FW94 ] ), RIPPER ( Cohen [ Coh95 ] ) FOIL ( Quinlan 和 Cameron- Jones [ Qui90, 
QCJ93]) ， 以 及 Swap-1( Weiss 和 Indurkhyal W198 ] ) 。 基 于 频繁 模式 挖掘 的 基于 规则 的 分 类 在 第 9 章 介绍 。 
关于 由 决策 树 提取 规则 ， 见 Quinlan[ Qui87，Qui93 ] 。 规 则 精炼 策略 由 给 定 的 规则 集 识别 最 有 趣 的 规则 ， 可 
以 在 Major 和 Mangano[ MM95] 中 找到 。 

估计 分 类 准确 率 的 问题 在 Weiss 和 Kulikowski[ WK91] 以 及 Witten 和 Frank[ WF05] 中 讨论 。 灵 敏 度 、 
特效 性 和 精度 在 大 部 分 信息 检索 教材 中 都 有 讨论 。 关 于 下 和 F, 度量 ， 见 van Rijsbergen[ vrR90] 。 根 据 Koha- 
vil Koh95] 的 理论 和 实验 研究 ， 与 保持 、 交 叉 验 证 、 留 一 (Stone[ Sto74]) 和 自助 (Efron 和 Tibshirani 
[ET93]) 方法 相 比 ， 优 先 推荐 评估 分 类 法 准确 率 的 分 层 10- 折 交叉 验证 。 关 于 置信 界 和 统计 检验 的 显著 性 ， 
W, Freedman, Pisani 和 Purves[FPP07 ] 。 

关于 ROC 曲线 分 析 ， 见 Egan[ Ega75 ] ，Swets [ Swe88 ] ， 以 及 Vuk 和 Curk[ VC06 ] 。 38 48 E Briman 
[Bre96] 中 提出 。Freund 和 Schapire[ FS97] 提出 Adaboost。 这 种 提升 技术 已 用 于 多 种 不 同 的 分 类 法 ， 包 括 
决策 树 归 纳 (Quinlan[ Que96] ) 和 朴素 贝 叶 斯 分 类 (Elkan[ Elk97 ] ) 。Friedman[ Fri01] 为 回归 问题 提出 了 
一 种 梯度 提升 机 。 随 机 森林 的 组 合 方法 由 Breiman[ Bre01] 提出 。Seni 和 Flder[ SE10] 提出 了 重要 性 抽样 学 
习 组 合 〈Importance Sampling Learning Ensembles, ISLE) 和 框架， 把 装 伐 、Adaboost、 随 机 森林 和 梯度 提升 都 
看 做 一 般 组 合 产生 过 程 的 特例 。 

Friedman 和 Popescu[ FB08 FPOS] 提出 了 规则 组 合 分 类 ， 一 个 基于 ISLE 的 模型 ， 其 中 组 合 分 类 器 由 
简单 、 清 晰 的 规则 组 成 。 据 观察 ， 这 种 组 合 分 类 器 具有 相当 或 较 高 的 准确 率 和 更 好 的 可 解释 性 。 有 许多 包 
含 组 合 分 类 程序 的 在 线 软件 包 ， 包 含 装 黎 、Adaboost、 梯 度 提升 和 随机 森林 。 对 类 不 平衡 问题 和 代价 敏感 
学 习 的 研究 包括 Weiss[ Wei04 ] Zhou 和 Liu[ ZL06], Zapkowicz 和 Stephen[ ZS02] ， Elkan[ Elk01] ， 以 及 Do- 
mingos{ Dom99 ] 。 

加 州 大 学 欧文 分 校 (UCI) 维护 了 一 个 数据 集 的 机 器 学 习 库 ， 用 于 分 类 算法 的 开发 和 测试 。 它 还 维护 
了 一 个 数据 库 中 知识 发 现 (Knowledge Discovery in Databases, KDD) 档案 ,一 个 大 型 数据 集 的 联机 库 ， 涵 
盖 各 种 数据 类 型 、 分 析 任务 和 应 用 领域 。 关 于 这 两 个 库 的 信息 ， 见 http://www. ics. uci. edu/ ~ mlearn/MLRe- 
pository. html 和 http ://kdd. ics. uci. edu, 

没有 一 种 分 类 方法 对 于 所 有 数据 类 型 和 领域 都 优 于 其 他 方法 。 分 类 方法 的 实验 比较 包括 Quinlan 
[Qui8g ] Shavlik, Mooney 和 Towell [ SMT91 ] Brown, Cormuble 和 Pittard [ BCP93 ] Curram 和 Mingers 
[CM94 ] Brown, Corruble 和 Pittard[ MST94 ] , Brodley 和 Utgoff[ BU95 ] ， 以 及 Lim, Loh 和 Shih[ LLS00 ] 。 
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本 章 ， 我 们 将 学 习 数 据 分 类 的 高 级 技术 。 我 们 从 贝 叶 斯 信念 网 络 开始 (9.1 节 )。 不 同 
于 朴素 贝 叶 斯 分 类 ， 贝 叶 斯 信念 网 络 不 假定 类 条 件 独立 性 。 后 向 传播 (backpropagation) 是 
一 种 神经 网 络 算法 ， 将 在 9. 2 节 讨论 。 一 般 而 言 ， 神 经 网 络 是 一 组 连接 的 输入 /输出 单元 ， 
其 中 每 个 连接 都 有 一 个 与 之 相关 联 的 权重 。 权 重 在 学 习 阶 段 不 断 调整 ， 以 帮助 网 络 正 确 地 预 
测 输入 元 组 的 类 标号 。 一 种 更 新 的 分 类 算法 称 做 支持 向 量 机 ， 将 在 9. 3 节 介 绍 。 支 持 向 量 机 
把 训练 数据 变换 到 更 高 维 空间 ， 在 那里 ， 使 用 称 做 支持 向 量 的 基本 训练 元 组 ， 找 出 将 数据 按 
类 分 开 的 超 平面 。9. 4 节 介 绍 使 用 频繁 模式 分 类 ， 探 索 频繁 地 在 数据 中 出 现 的 属性 - 值 对 之 
间 的 关系 。 这 种 方法 建立 在 频繁 模式 研究 的 基础 之 上 (第 6 章 和 第 7 章 ) 。 

9.5 节 介 绍 情 性 学 习 或 基于 实例 的 分 类 方法 ， 如 最 近邻 分 类 和 基于 案例 的 推理 分 类 。 它 
们 在 模式 空间 存放 所 有 训练 元 组 ， 一 直 等 到 提供 检验 元 组 之 后 才 进 行 泛 化 。 其 他 分 类 方法 ， 
如 遗传 算法 、 粗 糙 集 合 、 模 糊 逻 辑 技 术 ， 将 在 9. 6 节 介 绍 。9.7 节 介 绍 分 类 的 其 他 主题 ， 包 
括 多 类 分 类 、 半 监督 分 类 、 主 动 学 习 和 迁移 学 习 。 


9.1 贝 叶 斯 信念 网 络 

第 8 章 介 绍 了 贝 叶 斯 定理 和 朴素 贝 叶 斯 分 类 。 本 章 ， 我 们 介绍 贝 叶 斯 信念 网 络 一 一 一 种 
概率 的 图 模型 。 与 朴素 贝 叶 斯 分 类 不 同 ， 它 允许 表示 属性 子 集 之 间 的 依赖 关系 。 贝 叶 斯 信念 
网 络 可 以 用 来 分 类 。9. 1. 1 节 介 绍 贝 叶 斯 信念 网 络 的 基本 概念 。9. 1.2 节 ， 我 们 将 学 习 如 何 
训练 这 种 模型 。 


9.1.1 概念 各 机制 


朴素 贝 叶 斯 分 类 法 假定 类 条 件 独立 。 即 给 定 元 组 的 类 标号 ， 假 定 属性 的 值 可 以 条 件 地 相 
互 独立 。 这 一 假定 简化 了 计算 。 当 假定 成 立时 ， 与 其 他 所 有 分 类 器 相 比 ， 朴 素 贝 叶 斯 分 类 器 
是 最 准确 的 。 然 而 ， 在 实践 中 ， 变 量 之 间 可 能 存在 依赖 关系 。 贝 叶 斯 信念 网 络 (Bayesian 
belief network) 说 明 联 合 条 件 概 率 分 布 。 它 允许 在 变量 的 子 集 间 定义 类 条 件 独立 性 。 它 提供 
一 种 因果 关系 的 图 形 模型 ， 可 以 在 其 上 进行 学 习 。 训 练 后 的 贝 叶 斯 信念 网 络 可 以 用 于 分 类 。 
贝 叶 斯 信念 网 络 也 被 称 做 信念 网 络 、 贝 叶 斯 网 络 和 概率 网 络 。 为 简洁 计 ， 我 们 称 它 为 信念 
网 络 。 

信念 网 络 由 两 个 成 分 定义 一 一 有 向 无 环 图 和 条 件 概率 表 的 集合 〈 见 图 9. 1) 。 有 向 无 环 
图 的 每 个 节点 代表 一 个 随机 变量 。 变 量 可 以 是 离散 值 或 连续 值 。 它 们 可 能 对 应 于 给 定数 据 中 
的 实际 属性 ， 或 对 应 于 相信 形成 联系 的 “隐藏 变量 ”( 例如 ， 在 医疗 数据 中 ， 隐 藏 变量 可 以 
预示 由 多 种 症状 表示 的 综合 病症 ， 刻 画 一 种 具体 的 疾病 ) 。 而 每 条 弧 表 示 一 个 概率 依赖 。 如 
果 一 条 弧 由 节点 了 到 Z， 则 了 是 2 的 双亲 或 直接 前 驱 ， 而 Z 是 了 的 后 代 。 给 定 其 双亲 ， 每 个 
变量 条 件 独 立 于 图 中 它 的 非 后 代 。 

图 9. 1 是 一 个 6 个 布尔 变量 的 简单 信念 网 络 ， 取 自 Russell, Binder, Koller 和 Kana- 
zawa[ RBKK95] 。 图 9. 1a 中 的 弧 可 以 表示 因果 知识 。 例 如 ， 肺 癌 患 者 受 其 家 族 肺癌 史 
的 影响 ， 也 受 其 是 否 吸烟 的 影响 。 注 意 ， 倘 车 已 知 患 者 得 了 肺癌 ， 变 量 PostiveXRay 独 





256 + BOB HE: 高 级 方法 


立 于 该 患者 是 否 具有 家 族 肺癌 史 ， 也 独立 于 他 是 否 吸 烟 。 换 言 之 ， 一 旦 我 们 知道 变量 
LungCancer 的 结果 ， 那 么 变量 FamilyHistory 和 Smoker 就 不 再 提供 关于 PostiveXRay 的 任 
何 附 加 信息 。 这 些 弧 还 表明 : 给 定 其 双亲 FamilyHistory H Smoker, 4554 LungCancer 条 件 
地 独立 于 Emphysema , 
对 于 每 个 变量 ， 信 念 网 络 有 一 个 条 件 概率 表 (Conditional Probability Table，CPT) 。 变 量 
Y 的 CPT 说 明 条 件 分 布 PLY| Parents(Y)), ， 其 中 Parents(Y) 是 了 的 双亲 。 图 9. lb 显示 了 变 
E LungCancer 的 CPT。 对 于 其 双亲 值 的 每 个 可 能 组 合 ， 表 中 给 出 了 LungCancer 的 每 个 已 知 
值 的 条 件 概率 。 例 如 ， 从 左上 角 和 右 下 角 的 表 目 ， 我 们 分 别 看 到 
P(LungCancer = yes | FamilyHistory = yes,Smoker = yes) = 0.8 
P(LungCancer = no | FamilyHistory = no,Smoker = no) = 0.9 






a) b) 


图 9. 1 一 个 简单 的 贝 叶 斯 信念 网 络 : a) 一 个 提议 的 因果 模型 ， 用 有 向 无 环 图 表示 ; 
b) 变量 LungCance( LC) 的 条 件 概率 表 ， 给 出 其 双亲 节点 FamilyHistory 和 
Smoke 的 每 个 可 能 值 组 合 的 条 件 概 率 。 取 自 Russell, Binder, Koller 和 
Kanazawa[ RBKK95 ] 
BeX=(x,, +, x,) 是 被 变量 或 属性 7 ，…，Y, 描述 的 数据 元 组 。 注 意 ， 给 定 变量 的 
双亲 ， 每 个 变量 都 条 件 地 独立 于 网 络 图 中 它 的 非 后 代 。 这 使 得 网 络 用 下 式 提 供 存在 的 联合 概 


PositiveXRay 









FHS FH,~S ~FHS ~FH~S 
LC} 0.8 0.5 0.7 0.1 
~LC} 0.2 ° 0.5 0.3 0.9 











率 分 布 的 完全 表示 : 

P(x1 ,xX,) = TTP, | Parents(Y,) ) (9.1) 
其 中 ， P(x, vey Xn) 是 天 的 值 的 特定 组 合 的 概率 ， 而 P(x; | Parents( Y,) ) 的 值 对 应 于 Y, 的 
CPT 的 表 目 。 


网 络 内 的 节点 可 以 选 作 “输出 ”节点 ， 代 表 类 标号 属性 。 可 以 有 多 个 输出 节点 。 多 种 
推断 和 学 习 算 法 都 可 以 用 于 这 种 网 络 。 分 类 过 程 不 是 返回 单个 类 标号 ， 而 是 可 以 返回 概率 分 
布 ， 给 出 每 个 类 的 概率 。 信 念 网 络 可 以 用 来 回答 实证 式 查询 的 概率 ( 例如， 倘若 给 定 一 个 
AX HH AM (Positive XRay) 和 呼吸 困难 〈Dyspnea) ， 他 患 肺癌 的 概率 有 多 大 ) 和 最 可 

能 的 查询 解释 〈 例 如 ， 哪 些 人 群 最 有 可 能 巨 光 片 有 问题 和 呼吸 困难 ) 。 
信念 网 络 已 经 成 功 地 用 来 对 一 些 著名 的 问题 建 模 。 一 个 例子 是 遗传 连锁 (genetic link- 
374| age) 分 析 〈 例 如 ， 基 因 到 染色 体 的 映射 ) 。 通 过 贝 叶 斯 网 络 推理 和 使 用 具有 现代 科技 水 平 
395) 的 算法 解决 基因 连锁 问题 ， 这 种 分 析 具 有 非常 好 的 可 伸缩 性 。 其 他 得 益 于 使 用 信念 网 络 的 应 
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用 包括 计算 机 视觉 〈 例 如 ， 图 像 复原 和 立体 视觉 ) 、 文 档 和 文本 分 析 、 决 策 支 持 系 统 和 灵敏 
度 分 析 。 把 许多 应 用 归结 为 贝 叶 斯 网 络 推理 是 有 益 的 ， 因 为 这 样 就 不 必 为 每 个 应 用 创建 专门 
的 算法 。 


9.1.2 训练 贝 叶 斯 信念 网 络 

“ 贝 叶 斯 信念 网 络 如 何 学 习 ?” 在 信念 网 络 学 习 或 训练 时 ， 许 多 方案 都 是 可 行 的 。 网 络 
拓扑 〈 或 节点 和 弧 的 “布局 ”) 可 以 由 专家 构造 或 由 数据 导出 。 网 络 变量 可 以 是 可 观测 的 ， 
或 隐藏 在 所 有 或 某 些 训练 元 组 中 。 隐 藏 数据 的 情况 也 称 为 缺失 值 或 不 完全 数据 。 

给 定 可 观测 变量 ， 存 在 一 些 学 习 算法 ， 从 训练 数据 学 习 网 络 拓扑 。 该 问题 是 一 个 离散 最 
优化 问题 ， 其 解法 见 本 章 末 尾 的 文献 注释 〈9. 10 节 ) 。 专 家 通常 对 所 分 析 领 域 成 立 的 直接 条 
件 依赖 具有 很 好 的 把 握 ， 这 有 助 于 网 络 设计 。 专 家 必须 说 明 参 与 直接 依赖 的 节点 的 条 件 概 
率 。 这 些 概率 可 以 用 来 计算 其 他 概率 值 。 

如 有 果 网 络 拓扑 已 知 并 且 变 量 是 可 观测 的 ， 则 训练 网 络 是 直接 的 。 该 过 程 由 计算 CT 表 
目 组 成 ， 与 朴素 贝 叶 斯 分 类 涉及 的 概率 计算 类 似 。 

当 网 络 拓扑 给 定 ， 而 某 些 变量 是 隐藏 的 时 ， 可 以 选择 不 同 的 方法 来 训练 信念 网 络 。 我 们 
将 介绍 一 种 有 希望 的 梯度 下 降 法 。 对 于 缺乏 高 等 数学 背景 的 读者 ， 这 些 介绍 看 上 去 有 点 吓 
人 ， 充 满 了 微 积 分 公式 。 然 而 ， 存 在 求解 这 些 方程 的 软件 包 ， 并 且 其 一 般 思想 容易 理解 。 

设 刀 是 数据 元 组 X,, XL, es Xio 的 训练 集 。 训 练 信念 网 络 意味 着 我 们 必须 学 习 CPT 
表 目 的 值 。 设 wa 是 具有 双亲 U, =u, WER Y, = yy HY CPT RA, Hep Win, =PCY, = Vi | U; = 
Undo PRN, WA wa 是 图 9. 1b 左上 角 的 CPT RA, Ml Y, 是 LungCancer; yy 是 其 值 “yes”; 
UV; JUB Y, 的 双亲 节点 | FamilyHistory, Smoker! ; 而 wi4 列 出 双亲 节点 的 值 | “yes”, “yes” | 。 
ww 可 以 看 做 权重 ,类似 于 神经 网 络 ( 见 9.2 节 ) 中 隐藏 单元 的 权重 。 权 重 的 集合 记 作 W, 
这 些 权 重 被 初始 化 为 随机 概率 值 。 梯 度 下 降 策略 采用 贪心 假山 法 。 在 每 次 迭代 后 ， 这 些 权重 
都 会 被 修改 ， 并 最 终 收敛 到 一 个 局 部 最 优 解 。 

假定 ww 的 每 种 可 能 设置 都 是 等 可 能 的 ， 梯 度 下 降 (gradient descent) 策略 用 于 搜索 能 
最 好 地 对 数据 建 模 的 wj 值 。 这 种 策略 是 迭代 的 。 它 沿 着 准则 函数 的 梯度 的 负 方 向 即 陡 峭 
下 降 的 方向 ) 搜索 解 。 我 们 要 找 出 最 大 化 该 函数 的 权重 的 集合 W。 开 始 ， 这 些 权重 被 初始 
化 为 随机 的 概率 值 。 梯 度 下 降 策略 执行 贪心 的 息 山 法 ， 因 为 在 每 次 迭代 或 每 一 步 ， 算 法 向 当 
时 看 上 去 是 最 优 解 的 方向 移动 而 不 回溯 。 每 次 迭代 都 更 新 权重 。 最 终 ， 它 收敛 于 一 个 局 部 最 
优 解 。 


对 于 我 们 的 问题 ， 我 们 最 大 化 P,(D) = J] 已 (和 )。 这 通过 按 nP, (S) 的 梯度 来 做 


使 得 问题 更 简单 。 给 定 网 络 拓 扑 和 ww 的 初 值 ， 该 算法 按 以 下 步 又 处 理 : 

(1) 计算 梯度 : 对 每 个 i, j, k, 计算 

AnP,(D) _ 2 P(Y, = yy U: = uy | Xa) 
OW 5, Fes) W ijk 

(9.2) 式 右 端 的 概率 要 对 D 中 的 每 个 训练 元 组 和 X, 计算 。 为 简单 起 见 ， 我 们 简单 地 称 此 概率 
Hpo Y, M U, 表示 的 变量 对 某 个 是 隐藏 的 时 ， 则 对 应 的 概率 p 可 以 使 用 贝 叶 斯 网 络 推 
理 的 标准 算法 (如 商用 数值 软件 包 HUGIN 提供 的 那些 ) ， 由 元 组 的 观察 变量 计算 。 

(2) 沿 梯度 方向 前 进 一 小 步 : 用 下 式 更 新 权重 








(9.2) 
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wa gy + (YD (9.3) 
dlnP, (D) 人 
Hp, 是 表示 步 长 的 学 习 率 ， m (9.2) 式 计算 。 学 习 率 被 设置 为 一 人 小 常数 


OW i, 


有 助 于 收敛 。 
(3) 重新 规格 化 权重 : 由 于 权重 wx 是 概率 值 ， 它 们 必须 在 0. 0 和 1. 0 之 间 ， 并 且 对 于 


WAR i, k, Don WOES Ne MEM (OD EME, TUENEAN Conor 


malizing ) 来 保证 这 一 条 件 。 
遵循 这 种 学 习 形 式 的 算法 称 做 自 适 应 概率 网 络 (adaptive probabilistic networks) 。 训 练 信 
念 网 络 的 其 他 方法 参见 本 章 的 文献 注释 (9. 10 节 ) 。 信 念 网 络 是 计算 密集 的 。 因 为 信念 网 络 
提供 了 因果 结构 的 显 式 表示 ， 因 此 专家 可 以 用 网 络 拓扑 和 /或 条 件 概 率 值 的 形式 提供 先 验 知 
[397] 识 。 这 可 以 显著 地 提高 学 习 率 。 


9.2 用 后 向 传播 分 类 

“什么 是 后 向 传播 ?” 后 向 传播 是 一 种 神经 网 络 学 习 算 法 。 神 经 网 络 领域 最 早 是 由 心理 
学 家 和 神经 学 家 开创 的 ， 旨 在 寻求 开发 和 检验 神经 的 计算 模拟 。 粗 略 地 说 ， 神 经 网 络 是 一 双 
连接 的 输入 /输出 单元 ， 其 中 每 个 连接 都 与 一 个 权重 相关 联 。 在 学 习 阶段 ， 通 过 调整 这 些 权 
重 ， 使 得 它 能 够 预测 输入 元 组 的 正确 类 标号 来 学 习 。 由 于 单元 之 间 的 连接 ， 神 经 网 络 学 习 又 
称 连接 者 学 习 (connectionist learning) o 

神经 网 络 需要 很 长 的 训练 时 间 ， 因 而 更 适合 具有 足够 长 的 训练 时 间 的 应 用 。 它 需要 大 量 
的 参数 ， 如 网 络 拓扑 或 “结构 ” ， 通 常 这 些 主要 靠 经 验 确 定 。 神 经 网 络 常常 因 其 可 解释 性 差 
而 受到 批评 。 例 如 ， 人 们 很 难 解 释 网 络 中 学 习 的 权重 和 “隐藏 单 元 ”的 符号 含义 。 对 于 数 
据 挖 据 ， 这 些 特点 最 初 使 得 神经 网 络 并 不 理想 。 

然而 ， 神 经 网 络 的 优点 包括 其 对 噪声 数据 的 高 承受 能 力 ， 以 及 它 对 未 经 训练 的 数据 
的 模式 分 类 能 力 。 当 你 在 缺乏 属性 与 类 之 间 的 联系 的 知识 时 也 可 以 使 用 它们 。 不 像 大 
部 分 决策 树 算法 ,它们 非常 适合 连续 值 的 输入 和 输出 。 它 们 已 经 成 功 地 应 用 于 广泛 的 
现实 志 界 的 数据 ,包括 手写 字符 识别 、 病 理 和 实验 医学 、 训 练 计算 机 朗读 英文 课文 。 
神经 网 络 算法 天 生 是 并 行 的 ， 可 以 使 用 并 行 技 术 来 加 快 计算 过 程 。 此 外 ， 最近 已 经 开 
发 了 一 些 从 训练 过 的 神经 网 络 提取 规则 的 技术 。 这 些 因素 推动 了 神经 网 络 在 数据 挖掘 
分 类 和 数值 预测 方面 的 应 用 。 

有 许多 不 同类 型 的 神经 网 络 和 神经 网 络 算法 。 最 流行 的 神经 网 络 算法 是 后 向 传播 ， 它 在 
20 世纪 80 年 代 就 颇 有 名 气 。 在 9.2. 1 节 ， 我 们 将 学 习 多 层 前 馈 神 经 网 络 ， 后 向 传播 算法 即 
在 这 种 类 型 的 网 络 上 运行 。9. 2. 2 节 讨 论 定义 网 络 拓扑 。 后 向 传播 算法 在 9.2.3 节 介 绍 。 从 
训练 后 的 神经 网 络 提取 规则 在 9. 2.4 节 讨 论 。 


9.2.1 多 层 前 馈 神经 网 络 
后 向 传播 算法 在 多 层 前 馈 神 经 网 络 上 学 习 。 它 迭代 地 学 习 用 于 元 组 类 标号 预测 的 一 组 权 


H. SERI (multilayer feed-forward) 神经 网 络 由 一 个 输入 层 、 一 个 或 多 个 隐藏 层 和 一 
[398] 输出 层 组 成 。 多 层 前 馈 网 络 的 例子 如 图 9. 2 所 示 。 
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输入 层 隐藏 层 输出 层 














图 9.2 一 个 多 层 前 馈 神 经 网 络 


每 层 由 一 些 单元 组 成 。 网 络 的 输入 对 应 于 对 每 个 训练 元 组 的 观测 属性 。 输 入 同时 提供 给 
构成 输入 层 的 单元 。 这 些 输入 通过 输入 层 ， 然 后 加 权 同 时 地 提供 给 称 做 隐藏 层 的 “类 神经 
元 的 ”第 二 层 。 该 隐藏 层 单元 的 输出 可 以 输入 到 另 一 个 隐藏 层 ， 诸 如 此 类 。 隆 藏 层 的 数量 
是 任意 的 ， 尽 管 实 践 中 通常 只 用 一 层 。 最 后 一 个 隐藏 层 的 权重 输出 作为 构成 输出 层 的 单元 的 
~“ 输入。 输出 层 发 布 给 定 元 组 的 网 络 预测 。 

输入 层 的 单元 称 做 输入 单元 。 隐 藏 层 和 输出 层 的 单元 ， 由 于 其 符号 生物 学 基础 ， 有 时 称 
做 神经 节点 (neurodes) ， 或 称 输出 单元 。 图 9. 2 所 示 的 多 层 神经 网 络 具 有 两 层 输 出 单元 。 
因此 ， 我 们 称 之 为 两 层 神 经 网 络 。 (不 计算 输入 层 ， 因 为 它 只 用 来 传递 输入 值 到 下 一 层 。) 
类 似 地 ,包含 两 个 隐藏 层 的 网 络 称 做 三 层 神 经 网 络 等 。 网 络 是 前 馈 的 ， 因 为 其 权重 都 不 回 送 
到 输入 单元 ,或 前 一 层 的 输出 单元 。 网 络 是 全 连接 的 ， 如 果 每 个 单元 都 向 下 一 层 的 每 个 单元 
提供 输入 。 

每 个 输出 单元 取 前 一 层 单元 输出 的 加 权 和 作为 输入 ( 见 后 面 的 图 9.4)。 它 应 用 一 个 非 
线性 (激活 ) 函数 作用 于 加 权 输 入 。 多 层 前 馈 神 经 网 络 可 以 将 类 预测 作为 输入 的 非 线 性 组 
合 建 模 。 从 统计 学 的 观点 来 讲 ， 它 们 进行 非 线性 回归 。 给 定 足 够 多 的 隐藏 单元 和 足够 的 训练 
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9.2.2 定义 网 络 拓扑 

“如 何 设计 神经 网 络 的 拓扑 结构 ?” 在 开始 训练 之 前 ， 用 户 必须 确定 网 络 拓扑 ， 说 明 输 
人 层 的 单元 数 、 隐 藏 层 数 (如果 多 于 一 层 ) 、 每 个 隐藏 层 的 单元 数 和 输出 层 的 单元 数 。 

对 训练 元 组 中 每 个 属性 的 输入 测量 值 进 行规 范 化 将 有 助 于 加 快 学 习 过 程 。 通 常 ， 对 输入 
值 规范 化 ， 使 得 它们 落 入 0.0 和 1.0 之 间 。 离 散 值 属 性 可 以 重新 编码 ， 使 得 每 个 域 值 有 一 个 
输入 单元 。 例 如 ， 如 果 属 性 4 有 3 个 可 能 的 或 已 知 的 值 1a。，a!，as1 ， 则 可 以 分 配 三 个 输 
人 单元 表示 4， 即 我 们 可 以 用 I。、、7 作为 输入 单元 。 每 个 单元 都 初始 化 为 0。 如 果 4 = 
ay, Wi 置 为 1， 其 余 为 0; MRA=a,, WT, Bl, RAO; 诸如 此 类 。 

神经 网 络 可 以 用 于 分 类 (预测 给 定 元 组 的 类 标号 ) 和 数值 预测 预测 连续 值 输出 )。 对 于 分 
类 ,一 个 输出 单元 可 以 用 来 表示 两 个 类 (其 中 值 1 代表 一 个 类 ， 而 值 0 代表 另 一 个 类 ) 。 如 果 多 
于 两 个 类 ， 则 每 个 类 使 用 一 个 输出 单元 。( 关 于 多 类 分 类 的 更 多 策略 ， 见 9.7. 1 节 ,) 
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对 于 “最 好 的 ”隐藏 层 单元 数 ， 没 有 明确 的 规则 确定 。 网 络 设 计 是 一 个 反复 试验 的 过 
程 ， 并 可 能 影响 结果 训练 网 络 的 准确 性 。 权 重 的 初 值 也 可 能 影响 结果 的 准确 性 。 一 旦 网 络 经 
过 训练 ， 并 且 其 准确 率 不 能 被 接受 ， 则 通常 用 不 同 的 网 络 拓扑 或 使 用 不 同 的 初始 权重 集 ， 重 
复 训练 过 程 。 可 以 使 用 准确 率 估计 的 交叉 验证 技术 〈 已 经 在 第 8 章 介绍 ) ， 帮 助 确定 何 时 找 
到 一 个 可 接受 的 网 络 。 已 经 提出 了 一 些 自动 搜索 “好 ”网 络 结构 的 技术 。 通 常 ， 这 些 技 术 
使 用 礁 山 法 ， 从 一 个 有 选择 的 改良 的 初始 结构 开始 。 


9.2.3 后 向 传播 

“后 向 传播 如 何 工作 ?” 后 向 传播 通过 和 迭代 地 处 理 训练 元 组 数据 集 ， 把 每 个 元 组 的 网 络 
预测 与 实际 已 知 的 目标 值 相 比较 进行 学 习 。 目 标 值 可 以 是 训练 元 组 的 已 知 类 标号 (对 于 分 
类 问题 ) 或 者 是 连续 值 (对 于 预测 ) 。 对 于 每 个 训练 样本 ， 修 改 权重 使 得 网 络 预测 和 实际 目 
标 值 之 间 的 均 方 误差 最 小 。 这 种 修改 “后 向 ”进行 ， 即 由 输出 层 ， 经 由 每 个 隐藏 层 ， 到 第 
一 个 隐藏 层 (因此 称 做 后 向 传播 ) 。 尽 管 不 能 保证 ， 一 般 而 言 ， 权 重 将 最 终 收敛 ， 学 习 过 程 
停止 。 算 法 概括 在 图 9. 3 中 。 所 涉及 的 步骤 用 输入 、 输 出 和 误差 等 术语 表达 。 如 果 你 是 第 一 
次 接触 神经 网 络 学 习 ， 这 些 看 上 去 有 些 困难 。 然 而 ， 如 果 你 熟悉 了 这 一 过 程 ， 你 就 会 发 现 每 
一 步 都 很 简单 。 这 些 步 又 解释 如 下 : 

am 后 向 传播 。 使 用 后 向 传播 算法 ,学 习 分 类 或 预测 的 神经 网 络 。 | 





D: 由 训练 元 组 和 其 相关 联 的 目标 值 组 成 的 数据 集 ; 
. L: 学 习 率 ; 
+ network: 多 层 前 馈 网 络 。 

输出 : 训练 后 的 神经 网 络 。 

方法 : 


法 : 

(1) 初始 化 retwork 的 所 有 权重 和 偏 倚 。 
(2) while 终止 条 件 不 满足 { 

(3) for D 中 每 个 训练 元 组 X | 


(4) / 前 向 传播 输入 

(5) for 每 个 输入 层 单元 { 

(6) Omi; /输入 单元 的 输出 是 它 的 实际 输入 值 
(7) for 隐藏 或 输出 层 的 每 个 单元 { 

(8) IEZ w Orb; / 关于 前 一 层 i， 计 算 单 元 /的 净 输 入 
(9) O=1/ (te) 5 } / 计算 单元 /的 输出 


(10) / 后 向 传播 误差 

(11) for 输出 层 的 每 个 单元 / 

(12) Err=0, (1-0) (7-0) ; /计算 误差 

(13) for 由 最 后 一 个 到 第 一 个 隐藏 层 ， 对 于 隐藏 层 的 每 个 单元 / 
(14) Err=0, (1-0) X Err wail 计算 关于 下 一 个 较 高 层 # 的 误 
(15) for network 中 的 每 个 权 w，，( 








(16) AW,=() ErrO; I REME 
(17) WW tAW,; | /权重 更 新 
(18) for network HEE REO, { 
(19) ABEC Err; IARR 
(20) 6=0+A0 | AS RT 


(21) }) 





图 9.3 后 向 传播 算法 
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初始 化 权重 : 网 络 的 权重 被 初始 化 为 小 随机 数 〈 例 如 ,由 -1.0 到 1.0, 或 由 -0.5 到 0.5)。 
每 个 单元 都 有 一 个 相关 联 的 偏 倚 (bias)， 在 下 面 解释 。 类 似 地 ， 偏 倚 也 初始 化 为 小 随机 数 。 

每 个 训练 元 组 下 按 以 下 步骤 处 理 。 

向 前 传播 输入 : 首先 ， 训 练 元 组 提供 给 网 络 的 输入 层 。 输 入 通过 输入 单元 ， 不 发 生变 
化 。 也 就 是 说 ， 对 于 输入 单元 /， 它 的 输出 CO; STEM. Ria, TARE h 
层 的 每 个 单元 的 净 输 入 和 输出 。 隐 藏 层 和 输出 层 单元 的 净 输 入 用 其 输入 的 线性 组 合计 算 。 为 
帮助 解释 这 一 点 ， 图 9. 4 给 出 了 一 个 隐藏 层 或 输出 层 单元 。 每 个 单元 都 有 许多 输入 ， 这 些 输 
人 事实 上 是 连接 它 的 上 一 层 的 单元 的 输出 。 每 个 连接 都 有 一 个 权重 。 为 计算 该 单元 的 净 输 
人 人， 连接 该 单元 的 每 个 输入 都 乘 以 其 对 应 的 权重 ， 然 后 求 和 。 给 定 隐 藏 层 或 输出 层 的 单元 六 
到 单元 7 的 净 输 入 /是 : 

I, = $ w,0, + 6, (9.4) 


其 中 ,wy 是 由 上 一 层 的 单元 到 单元 j 的 连接 的 权重 ，0, 是 上 一 层 的 单元 ;的 输出 ; 而 6 是 
单元 7 的 偏 倚 。 偏 倚 充 当 阔 值 ， 用 来 改变 单元 的 活性 。 

隐藏 层 和 输出 层 的 每 个 单元 取 其 净 输入 ， 然 后 将 激活 (activation) 函数 作用 于 它 ， 如 
图 9.4 所 示 。 该 函数 象征 被 该 单元 代表 的 神经 元 的 活性 。 使 用 逮 辑 斯 缔 (logistic) 或 $ 型 
(sigmoid) 函数 。 给 定单 元 /的 净 输 入 二， 则 单元 7 的 输出 0; 用 下 式 计算 
(9.5) 








加 权 和 激活 函数 


输入 
《上 一 层 的 输出 ) 
图 9.4 一 个 隐藏 或 输出 单元 j: 单元 j 的 输入 是 来 自 上 _ 层 的 输出 。 这 些 与 对 应 的 权重 相 滋 ， 
以 形成 加 权 和 。 加 权 和 加 到 与 单元 7 相关 联 的 偏 傈 上 。 一 个 非 线 性 的 激活 函数 用 于 净 答 
人 和。( 为 了 便于 解释 ， 单 元 7 的 输入 标记 为 y, ，y, ，…，7,。 如 果 单 元 j 在 第 一 个 隐藏 层 ， 
则 这 些 输入 对 应 于 输入 元 组 (x, s X2, 7, Xn) o) 


eR NL AGE BAK (squashing function) ， 因 为 它 将 一 个 较 大 的 输入 值 域 映射 到 一 个 较 
小 的 区 间 0 到 1。 逻 辑 斯 缔 函 数 是 非 线性 的 ， 并 且 是 可 微 的 ， 使 得 后 向 传播 算法 可 以 对 非 线 
性 可 分 的 分 类 问题 建 模 。 

对 于 每 个 隐藏 层 ， 直 到 输出 层 ， 我 们 计算 输出 值 2， 给 出 网 络 预测 。 实 践 中 ， 由 于 在 
向 后 传播 误差 时 还 需要 这 些 中 间 输 出 值 ， 所 以 存放 每 个 单元 的 中 间 输 出 值 是 一 个 好 办 法 。 这 
种 技巧 可 以 显著 地 降低 所 需要 的 计算 量 。 

向 后 传播 误差 : 通过 更 新 权重 和 反映 网 络 预测 误差 的 偏 傈 ， 向 后 传播 误 益 。 对 于 输出 层 
单元 j， 误差 Err, 用 下 式 计 算 
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Err, = 0,(1 - 0,) (T, - 0;) (9.6) 
其 中 ，O 是 单元 j 的 实际 输出 ， 而 ZT 是 /给 定 训练 元 组 的 已 知 目标 值 。 注 意 ，0,(1 - 0,) 是 
逻辑 斯 缔 函 数 的 导数 。 
为 计算 隐藏 层 单元 /的 误差 ,考虑 下 一 层 中 连接 /7 的 单元 的 误差 加 权 和 。 隐 藏 层 单元 7 
的 误差 是 
‘Err, = 0,(1 - 0;) È Errwy (9.7) 


其 中 ，w 是 由 下 一 较 高 层 中 单元 到 单元 j 的 连接 权重 ， 而 Err, 是 单元 上 的 误差 。 
更 新 权重 和 偏 位 ， 以 反映 误差 的 传播 。 权 重用 下 式 更 新 ， 其 中 ，Aw;y 是 权 w WER. 
Aw, = (1) Err,O; (9.8) 
w; = w; + Aw, (9.9) 
“ (9.8) APH‘) ”是 什么 ?” 变 量 ! 是 学 习 率 ， 通 常 取 0.0 和 1.0 之 间 的 常数 值 。 后 向 传 
播 使 用 梯度 下 降 法 搜索 权重 的 集合 。 这 些 权 重 拟 合 训练 数据 ， 使 得 样本 的 网 络 类 预测 与 元 组 
的 已 知 目标 值 之 间 的 均 方 距离 最 小 了。 学 习 率 帮助 避免 陷 人 决策 空间 的 局 部 极 小 ( 即 权重 看 
上 去 收敛 ， 但 不 是 最 优 解 ) ， 并 有 助 于 找到 全 局 最 小 。 如 果 学 习 率 太 低 ， 则 学 习 将 进行 得 很 











403 


慢 。 如 果 学 习 率 太 高 ， 则 可 能 出 现在 不 适当 的 解 之 间 的 摆动 。 一 种 调整 规则 是 将 学 习 率 设置 








H 1t, RH: 是 已 对 训练 样本 集 迭 代 的 次 数 。 

偏 傈 由 下 式 更 新 。 其 中 ，Ab) 是 偏 倚 6, 的 改变 量 。 

A0, = (1) Err, (9. 10) 
6, = 0, + A9, (9. 11) 

注意 ， 这 里 我 们 每 处 理 一 个 样本 就 更 新 权重 和 偏 傅 ， 这 称 做 实例 更 新 (case update) 。 
权重 和 偏 倚 的 增 量 也 可 以 累积 到 变量 中 ， 使 得 可 以 在 处 理 完 训练 集中 的 所 有 元 组 之 后 再 更 新 
权重 和 偏 傅 。 后 一 种 策略 称 做 周期 更 新 (epoch update) ， 其 中 扫描 训练 集 的 一 次 迭代 是 一 个 
周期 。 理 论 上 ， 后 向 传播 的 数学 推导 使 用 周期 更 新 ， 而 实践 中 ， 实 例 更 新 更 常见 ， 因 为 它 通 
常 产生 更 准确 的 结果 。 

终止 条 件 : 训练 停止 ， 如 果 

。 前 一 周期 所 有 的 Aw KARD, NTEN ERBE, 

。 前 一 周期 误 分 类 的 元 组 百分比 小 于 某 个 阔 值 ， 或 

。 超过 预先 指定 的 周期 数 。 

实践 中 ， 权 重 收敛 可 能 需要 数 十 万 个 周期 。 

“后 向 传播 的 有 效 性 如 何 ?” 计 算 的 有 效 性 依赖 于 训练 网 络 所 用 的 时 间 。 给 定 | D | 个 元 
组 和 2 个 权重 ， 则 每 个 周期 需要 0( D| xw) 时 间 。 然 而 ， 在 最 坏 情况 下 ， 周 期 数 可 能 是 
输入 元 组 数 n 的 指数 。 在 实践 中 ， 网 络 收敛 所 需要 的 时 间 是 非常 不 确定 的 。 存 在 一 些 加 快 训 
练 速度 的 技术 。 例 如 ， 可 以 使 用 一 种 称 做 模拟 退火 的 技术 ， 它 能 确保 收敛 到 全 局 最 优 。 

例 9.1 通过 后 向 传播 算法 学 习 的 样本 计算 。 图 9. 5 给 出 了 一 个 多 层 前 馈 神经 网 络 。 令 
学 习 率 为 0.9。 该 网 络 的 初始 权重 和 偏 倚 值 在 表 9. 1 中 给 出 ， 第 一 个 训练 元 组 为 = |1, 0, 
1| ， 其 类 标号 为 1。 

给 定 第 一 个 训练 元 组 对， 该 例 展示 后 向 传播 计算 。 首 先 把 该 元 组 提供 给 网 络 ， 计 算 每 个 
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单元 的 净 输 入 和 输出 。 这 些 值 显示 在 表 9. 2 中 。 计 算 每 个 单元 的 误差 ， 并 向 后 传播 。 误 差 值 








显示 在 表 9.3 中 ,权重 和 偏 倚 的 更 新 显示 在 表 9.4 中 。 7 


O ”一 种 也 用 于 训练 贝 叶 斯 信念 网 络 的 梯度 下 降 法 ， 见 9.1.2 节 。 
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图 9.5 多 层 前 馈 神经 网 络 的 一 个 例子 
表 9.1 初始 输入 、 权 重 和 偏 傅 值 


Xı X2 x3 Wig Wis Wr W25 W34 Was Wee Ws6 0, Os 96 
1 0 1 0.2 -0.3 0.4 0.1 -0.5 0.2 -0.3 -0.2 -0.4 0.2 0.1 








R92 净 输 入 和 输出 的 计算 





单元 j 净 输 入 万 输出 O; 

4 0.2+0-0.5-0.4= -0.7 1+ (1+e%7) =0.33 
5 -0.3+0+0.2+0.2=0.1 1+ (1+e-91)=0.525 
6 - (0.3) (0.332) - (0.2) (0.525) +0.1 = -0.105 





表 9. 3 每 个 节点 误差 的 计算 


单元 了 Err, 





i 
6 (0.474) (1-0.474) (1 -0.474) =0. 1311 
5 (0.525) (1 -0.525) (0.1311) ( -0.2) = -0.0065 
4 (0.332) (1 -0.332) (0.1311) ( -0.3) = -0.02087 


表 9.4 权重 和 偏 倚 更 新 的 计算 








权重 或 偏差 新 值 
wag -0.3+ (0.9) (0.1311) (0.332) = -0.261 
wss -0.2+ (0.9) (0.1311) (0.525) = -0.138 
wia 0.2+ (0.9) ( -0.0087) (1) =0.192 
wis -0.3+ (0.9) ( -0.0065) (1) = -0.306 
wa 0.4 + (0.9) ( -0.0087) (0) =0.4 
Ws 0.1+ (0.9) ( -0.0065) (0) =0.1 
Wy -0.5+ (0.9) (-0.0087) (1) = -0.508 
wss 0.2+ (0.9) ( -0.0065) (1) =0. 194 
bs 0.1+ (0.9) (0.1311) =0. 218 
6; 0.2+ (0.9) ( -0.0065) =0. 194 
[A -0.4+ (0.9) ( —0. 0087) = -0.408 


“如 何 使 用 训练 过 的 网 络 对 未 知 元 组 分 类 ?” 为 了 对 未 知 元 组 时 分类， 把 该 元 组 输入 到 
训练 过 的 网 络 ， 计 算 每 个 单元 的 净 输 入 和 输出 。 (不 需要 计算 误差 和 /或 它们 的 后 向 传播 。) 
如 果 每 个 类 有 一 个 输出 节点 ， 则 具有 最 高 输出 值 的 节点 决定 下 的 预测 类 标号 ， 如 果 只 有 一 
个 输出 节点 ， 则 输出 值 大 于 或 等 于 0. 5 可 以 视 为 正 类 ， 而 值 小 于 0. 5 可 以 视 为 负 类 。 

业已 提出 了 一 些 后 向 传播 算法 的 变形 和 替代 ， 用 于 神经 网 络 分 类 。 这 些 可 能 涉及 网 络 拓 
扑 和 学 习 速 率 或 其 他 参数 的 动态 调整 ， 或 使 用 不 同 的 误差 函数 。 


9.2.4 RAAR: 后 向 传播 和 可 解释 性 
“和 神经 网 络 像 一 个 黑金 。 如 何 “ 理 解 ”后 向 传播 神经 网 络 的 学 习 结果 ?” 神 经 网 络 的 主 
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要 缺点 是 其 知识 的 表示 。 用 加 权 链 连接 单元 的 网 络 表示 的 知识 让 人 很 难 解释 。 这 激发 了 提取 
隐藏 在 训练 后 的 神经 网 络 中 的 知识 及 象征 性 地 表示 这 些 知 识 的 研究 。 方 法 包括 由 网 络 提取 规 
则 和 灵敏 度 分 析 。 

业已 提出 了 各 种 规则 提取 算法 。 通 常 ， 这 些 方法 对 训练 给 定神 经 网 络 所 用 的 过 程 、 网 络 
的 拓扑 结构 和 输入 值 的 离散 化 加 以 限制 。 

全 连接 的 网 络 很 难处 理 。 因 此 ， 由 神经 网 络 提取 规则 的 第 一 步 通常 是 网 络 剪 枝 。 这 一 步 
可 以 简化 网 络 结构 ， 剪 去 对 训练 后 的 网 络 影响 最 小 的 加 权 链 。 例 如 ， 如 果 删 除 一 个 加 权 链 不 
导致 网 络 的 分 类 准确 率 下 降 ， 则 应 该 删除 它 。 

一 旦 训练 后 的 网 络 已 被 剪 枝 ， 某 些 方法 将 进行 链 、 单 元 或 活化 值 (activation value) RÆ, 
例如 ， 在 一 种 方法 中 ， 对 训练 过 的 两 层 神经 网 络 中 每 个 隐藏 单元 ， 使 用 聚 类 发 现 公共 活化 值 的 
集合 〈 见 图 9. 6) 。 对 每 个 隐藏 单元 分 析 这 些 活化 值 的 组 合 。 导 出 涉及 这 些 活化 值 和 对 应 的 输 
出 单元 值 组 合 的 规则 。 类 似 地 ， 研 究 输 入 值 和 活化 值 的 集合 ， 导 出 描述 输入 和 隐藏 层 单元 联 
系 的 规则 。 最 后 ， 两 个 规则 的 集合 可 以 结合 在 一 起 ， 形 成 下 -THEN 规则 。 其 他 算法 可 能 导 
出 其 他 形式 的 规则 ， 包 括 M-of-N 规则 (其 中 ,为 了 应 用 规则 的 后 件 ， 规 则 前 件 中 给 定 的 入 
个 条 件 中 的 M DRUNK), RA M-of-N 测试 的 决策 树 、 模 糊 规 则 和 有 穷 自 动机 。 








识别 每 个 隐藏 结 点 太 的 公共 活化 值 集 合 : 


对 于 HH: 〈-1.0.1) 
MEH: (0,1) 
MFA, (-1,0.24,1 
导出 与 输出 节点 0, 的 共同 活化 值 相关 的 规则 : 
IF ( 太 =0AND H,=-1) OR 
(H,=-1 AND H,=1 AND H,=-1) OR 
(H,=-1 AND H,=0 AND H,=0.24) 
THEN O,=1.0,=0 








ELSE 0O,=0,0,=1 
导出 与 输入 节点 /到 输出 节点 CQ 相关 的 规则 : 
IF (=0 AND 1=0) THEN H,=0 
IF (1,=1 AND /,=1) THEN H,=-1 
IF (=0) THEN H,=-1 
得 到 关于 输入 和 输出 类 的 规则 ; 
IF (/=0 AND 1,=0 AND 1=1 AND /,=1) 
THEN class=1 
IF (/,=0 AND J,=0 AND /,-0) THEN class=] 














图 9.6 可 以 从 训练 神经 网 络 提取 规则 。 取 自 Lu, Setiono 和 Liu[ LSL9S ] 
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灵敏 度 分 析 (sensitivity analysis) 用 于 评估 一 个 给 定 的 输入 变量 对 网 络 输出 的 影响 。 改 
变 该 变量 的 输入 ， 而 其 他 输入 变量 为 某 固定 值 。 其 间 ， 监 测 网 络 输出 的 改变 。 由 这 种 形式 的 
分 析 得 到 的 知识 是 形 如 “ 正 瑟 减少 5%THEN 了 增加 8% ”的 规则 。 


9.3 支持 向 量 机 

本 节 研 究 支持 向 最 机 (Support Vector Machine，SVM) ， 一 种 对 线性 和 非 线性 数据 进行 
分 类 的 方法 。 简 要 地 说 ，SVM 是 一 种 算法 ， 它 按 以 下 方法 工作 。 它 使 用 一 种 非 线性 映射 ， 
把 原 训练 数据 映射 到 较 高 的 维 上 。 在 新 的 维 上 ， 它 搜索 最 佳 分 离 超 平面 (即将 一 个 类 的 元 
组 与 其 他 类 分 离 的 “决策 边界 ”)。 使 用 到 足够 高 维 上 的 、 合 适 的 非 线 性 映射 ， 两 个 类 的 数 
据 总 可 以 被 超 平面 分 开 。SVM 使 用 支持 向 量 《“ 基 本 ”训练 元 组 ) 和 边缘 (由 支持 向 量 定 
X) 发 现 该 超 平面 。 稍 后 ， 我 们 将 更 深入 地 讨论 这 些 新 概念 。 

“我 听 说 SVM 最 近 引 起 了 极 大 关注 ， 为 什么 ?” 支 持 向 量 机 的 第 一 篇 论文 由 Vladimir 
Vapnik 和 他 的 同事 Bernhard Boser 及 Isabelle Guyon F 1992 年 发 表 ， 尽 管 其 基础 工作 早 在 20 
世纪 60 年 代 就 已 经 出 现 (包括 Vapnik 和 Alexei Chervonenkis 关于 统计 学 习 理 论 的 早期 工 
作 ) 。 尽 管 最 快 的 SVM 的 训练 也 非常 慢 ， 但 是 由 于 其 对 复杂 的 非 线 性 边界 的 建 模 能 力 ， 它 们 
是 非常 准确 的 。 与 其 他 模型 相 比 ， 它 们 不 太 容 易 过 分 拟 合 。 支 持 向 量 还 提供 了 学 习 模 型 的 紧 
凑 表 示 。SVM 可 以 用 于 数值 预测 和 分 类 。 它 们 已 经 用 在 许多 领域 ， 包 括 手写 数字 识别 、 对 
象 识 别 、 演 说 人 识别 ， 以 及 基准 时 间 序 列 预测 检验 。 


9.3.1 数据 线性 可 分 的 情况 

为 了 解释 SYM， 让 我 们 首先 考察 最 简单 的 情况 一 一 两 类 问题 ， 其 中 两 个 类 是 线性 可 分 
Bo WEBER DA (X, y), (X, 2), 0, (Kins Yini), HX, 是 训练 元 
组 ， 具 有 类 标号 Vio EA y 可 以 取 值 +1 或 -1 (yet +l, -1)), 分 别 对 应 于 类 buys_ 
computer = yes 和 buys_computer =no。 为 了 便于 可 视 化 ， 让 我 们 考虑 一 个 基于 两 个 输入 属性 A, 
AA, 的 例子 ， 如 图 9. 7 所 示 。 从 该 图 可 以 看 出 ， 该 二 维 数 据 是 线性 可 分 的 (或 简称 “线性 
的 ”) ， 因 为 可 以 画 一 条 直线 ， 把 类 +1 的 元 组 与 类 -1 的 元 组 分 开 。 

4 


2 





O Kl y=tl (buys_computer=yes) | 
@ 362 y=-1 (buys_computer=no) | 











图 9.7 线性 可 分 的 2-D 数据 集 。 有 无 限 多 个 (可 能 的 ) 分 离 超 平面 或 
“决策 边界 ”， 其 中 一 些 用 虚线 显示 。 哪 一 个 最 好 
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可 以 画 出 无 限 多 条 分 离 直 线 。 我 们 想 找 出 “最 好 的 ”一 条 ， 即 (我 们 希望 ) 在 先前 未 
见 到 的 元 组 上 具有 最 小 分 类 误差 的 那 一 条 。 如 何 找 到 这 条 最 好 的 直线 ? 注意 ， 如 果 我 们 的 数 
据 是 3-D 的 〈 即 具有 3 个 属性 ) ， 则 我 们 希望 找 出 最 佳 分 离 平 面 。 推 广 到 维 ， 我们 希望 找 
出 最 佳 超 平 面 。 我 们 将 使 用 术语 “ 超 平面 ”表示 我 们 寻找 的 决策 边界 ， 而 不 管 输入 属性 的 
个 数 是 多 少 。 这 样 ， 换 一 句 话 说 ,我们 如 何 找 出 最 佳 超 平面 ? 

SVM 通过 搜索 最 大 边缘 超 平面 (Maximum Marginal Hyperplane，MMH) 来 处 理 该 问题 。 
考虑 图 9. 8， 它 显示 了 两 个 可 能 的 分 离 超 平面 和 它们 的 相关 联 的 边缘 。 在 给 出 边缘 的 定义 之 
前 ,让 我 们 先 直 观 地 考察 该 图 。 两 个 超 平面 都 对 所 有 的 数据 元 组 正确 地 进行 了 分 类 。 然 而 ， 
直观 地 看 ， 我 们 预料 具有 和 较 大 边缘 的 超 平面 在 对 未 来 的 数据 元 组 分 类 上 比 具 有 较 小 边缘 的 超 
平面 更 准确 。 这 就 是 为 什么 〈 在 学 习 或 训练 阶段 ) SVM 要 搜索 具有 最 大 边缘 的 超 平面 ， 即 
最 大 边缘 超 平面 。MMH 相关 联 的 边缘 给 出 类 之 间 的 最 大 分 离 性 。 


A, A, 
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图 9.8 这 里 ， 我 们 看 到 两 个 可 能 的 分 离 超 平面 和 它们 的 边缘 。 哪 一 个 更 好 ? 图 9. 8b 所 示 的 
具有 最 大 边缘 的 分 离 超 平面 应 当 具 有 更 高 的 泛 化 准确 率 


关于 边缘 的 非 形式 化 定义 ,我 们 可 以 说 从 超 平面 到 其 边缘 的 一 个 侧面 的 最 短 距离 等 于 从 
该 超 平面 到 其 边缘 的 另 一 个 侧面 的 最 短 距离 ， 其 中 边缘 的 “侧面 ”平行 于 超 平面 。 事 实 上 ， 
在 处 理 MMH 时 ， 这 个 距离 是 从 MMH 到 两 个 类 的 最 近 的 训练 元 组 的 最 短 距离 。 

分 离 超 平面 可 以 记 为 

W-X+5b=0 (9. 12) 

其 中 ，W 是 权重 向 量 , 即 W = {w, w, =, wj; n 是 属性 数 ; 5 是 标量 ,通常 称 做 偏 倚 
(bias) 。 为 了 便于 观察 ， 让 我 们 考虑 两 个 输入 属性 A, 和 4,， 如 图 9. 8b 所 示 。 训 练 元 组 是 二 
HEN, WX =(%,, x), Kx, Aa, 分 别 是 X 在 属性 4 AA, 上 的 值 。 如 果 我 们 把 5 看 做 
附加 的 权重 w。 ， 则 我 们 可 以 把 分 离 超 平面 改写 成 


wo + wx, + wx, = 0 (9. 13) 
这 样 ， 位 于 分 离 超 平面 上 方 的 点 满足 
Wy +wx, + wx, > 0 (9. 14) 


类 似 地 ， 位 于 分 离 超 平面 下 方 的 点 满足 
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Wy +wx, +W% <0 (9.15) 

可 以 调整 权重 使 得 定义 边缘 “侧面 ”的 超 平面 可 以 记 为 
Hi:wo +wx +wx% 21, 对 于 y,; =+1 (9. 16) 
H,:wo + wx, + %,<-1, 对 于 y; =-1 (9. 17) 


也 就 是 说 ， 落 在 HW, 上 或 上 方 的 元 组 都 属于 类 +1， 而 落 在 及 上 或 下 方 的 元 组 都 属于 类 - 1。 
结合 两 个 不 等 式 (9.16) 和 (9. 17) ， 我 们 得 到 

yi(20o + wx, + wx) 21, Vi (9. 18) 
落 在 超 平面 H, RH, (BE RAY “MU” ) 上 的 任意 训练 元 组 都 使 (9. 18) 式 的 等 号 成 
立 ， 称 为 支持 向 量 (support vector)。 也 就 是 说 ， 它 们 离 (分 离 ) MMH 一 样 近 。 在 图 9.9 
中 ， 支 持 向 量 用 加 粗 的 圆圈 显示 。 本 质 上 ， 支持 向 量 是 最 难 分 类 的 元 组 ， 并 且 给 出 了 最 多 的 
分 类 信息 。 
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图 9.9 支持 向 量 。SVM 发 现 最 大 分 离 超 平面 ， 即 与 最 近 的 训练 元 组 具有 最 大 距离 的 超 平面 。 
支持 向 量 用 加 粗 的 圆圈 显示 


由 上 , 我 们 可 以 得 到 最 大 边缘 的 计算 公式 。 从 分 离 超 平面 到 H 上 任意 点 的 距离 是 
gwp Se WLS, VW WO, AE, CEF H 上 任意 点 到 分 离 


超 平面 的 距离 。 因 此 ， 最 大 边缘 是 市。 

“SVM 如 何 找 出 MMH 和 支持 向 量 ?” 使 用 某 种 “特殊 的 数学 技巧 "， 我 们 可 以 改写 
(9.18) R, 将 它 变换 成 一 个 称 做 被 约束 的 ( 凸 ， 二 次 最 优化 问题 。 这 种 特殊 的 数学 技巧 已 
经 超出 了 本 书 范围 。 高 水 平 的 读者 可 能 注意 到 这 种 “技巧 ”涉及 使 用 拉 格 朗 日 公式 改写 
(9.18) 式 ， 并 使 用 Karush- Kuhn-Tucker (KKT) 条 件 求解 。 细 节 可 以 在 本 章 结尾 的 文献 注 
FEHR (9. 10 节 ) 。 

如 果 数据 很 少 〈 例 如 ， 少 于 2000 个 训练 元 组 ) ， 则 可 以 使 用 任何 求解 约束 的 凸 二 次 最 
优化 问题 的 最 优化 软件 包 来 找 出 支持 向 量 和 MMH。 对 于 大 型 数据 ， 可 以 使 用 特殊 的 、 更 有 
效 的 训练 SVM 的 算法 。 这 些 细节 已 经 超出 了 本 书 的 范围 。 一 旦 我 们 找 出 支持 向 量 和 MMH 
(注意 ,支持 向 量 定义 MMH) ， 我 们 就 有 了 一 个 训练 后 的 支持 向 量 机 。MMH 是 一 个 线性 类 
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边界 ， 因 此 对 应 的 SVM 可 以 用 来 对 线性 可 分 的 数据 进行 分 类 。 我 们 称 这 种 训练 后 的 SVM 为 
线性 SVM。 

“一 旦 我 们 得 到 训练 后 的 支持 向 量 机 ， 如 何 用 它 对 检验 元 组 ( 即 新 元 组 ) 分 类 ?” 根 据 
上 面 提 到 的 拉 格 朗 日 公式 ， 最 大 边缘 超 平面 可 以 改写 成 决策 边界 


l 
d(X") = $ ¥,0:,X;X" + by (9.19) 
i=l 


其 中 ，y EARE X 的 类 标号 ,于 "是 检验 元 组 ，a: A bo 是 由 上 面 的 最 优化 或 SVM 算法 
自动 确定 的 数值 参数 ， 而 ! 是 支持 向 量 的 个 数 。 

感 兴趣 的 读者 可 能 注意 到 ，a, 是 拉 格 朗 日 乘 子 。 对 于 线性 可 分 的 数据 ， 支 持 向 量 是 实 
际 训 练 元 组 的 子 集 (正如 我 们 下 面 将 看 到 的 ， 尽 管 在 处 理 非 线性 可 分 的 数据 时 ， 这 稍微 有 
点 扭曲 )。 

给 定 检验 元 组 X”， 我 们 将 它 代 人 (9. 19) R, 然后 检查 结果 的 符号 。 这 将 告诉 我 们 检 
验 元 组 落 在 超 平面 的 哪 一 侧 。 如 果 该 符号 为 正 ， 则 和 落 MMH 上 或 上 方 ， 因 而 SVM 预测 x7 
属于 类 +1 (在 此 情况 下 ,代表 buys_computer = yes)。 如 果 该 符号 为 负 ， 则 和 MMH 上 或 
下 方 ， 因 而 SVM 预测 X 属于 类 -1 (代表 buys_computer = no) 。 

注意 ， 我 们 的 问题 的 拉 格 朗 日 公式 (9.19) 包含 支持 向 量 X, 和 检验 元 组 X 的 点 积 。 
正如 下 面 将 要 介绍 的 ， 当 给 定数 据 非 线性 可 分 时 ， 这 对 于 发 现 MMH 和 支持 向 量 是 非常 有 
用 的 。 

在 考虑 非 线性 可 分 的 情况 之 前 ， 还 有 两 件 重要 的 事情 需要 注意 。 学 习 后 的 分 类 器 的 复杂 
度 由 支持 向 量 数 而 不 是 由 数据 的 维 数 刻画 。 因 此 ， 与 其 他 方法 相 比 ，SVM 不 太 容 易 过 分 拟 
合 。 支 持 向 量 是 基本 或 临界 的 训练 元 组 一 一 它们 距离 决策 边界 (MMH) 最 近 。 如 果 删 除 其 
他 元 组 并 重新 训练 ， 则 将 发 现 相 同 的 分 离 超 平 面 。 此 外 ， 找 到 的 支持 向 量 数 可 以 用 来 计算 
SVM 分 类 器 的 期 望 误差 率 的 上 界 ， 这 独立 于 数据 的 维度 。 具 有 少量 支持 向 量 的 SVM 可 以 具 
有 很 好 的 泛 化 性 能 ， 即 使 数据 的 维度 很 高 时 也 是 如 此 。 


9.3.2 数据 非 线性 可 分 的 情况 


在 9.3.1 节 ， 我们 学 习 了 对 线性 可 分 数据 分 类 的 线性 SVM。 但 是 ， 如 果 数 据 不 是 线性 可 
分 的 ， 如 图 9. 10 中 的 数据 ， 怎 么 办 ?在 这 种 情况 下 ， 不 可 能 找到 一 条 将 这 些 类 分 开 的 直线 。 
我 们 上 面 研 究 的 线性 SVM 不 可 能 找到 可 行 解 ， 怎 么 办 ? 

A, 


O 类 1 y=+1 Cbuys_computer=yes) 
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图 9. 10 显示 线性 不 可 分 数据 的 一 个 简单 2 维 例子 。 与 图 9. 7 的 线性 可 分 的 数据 不 同 ， 这 里 
不 可 能 画 一 条 直线 将 两 个 类 分 开 。 该 决策 边界 是 非 线 性 的 
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好 消息 是 ， 可 以 扩展 上 面 介绍 的 线性 SVM， 为 线性 不 可 分 的 数据 〔 也 称 非 线性 可 分 的 
数据 ， 或 简称 非 线 性 数据 ) 的 分 类 创建 非 线 性 的 SVM。 这 种 SVM 能 够 发 现 输入 空间 中 的 非 
线性 决策 边界 ( 即 非 线性 超 曲 面 )。 

你 可 能 会 问 :“ 如 何 扩展 线性 方法 ?” 我 们 按 如 下 方法 扩展 线性 SVM 的 方法 ， 得 到 非 线 
性 的 SVM。 有 两 个 主要 步骤 。 第 一 步 ， 我 们 用 非 线 性 映射 把 原 输入 数据 变换 到 较 高 维 空间 。 
这 一 步 可 以 使 用 多 种 常用 的 非 线性 映射 ,下 面 将 进一步 介绍 。 一 旦 将 数据 变换 到 较 高 维 空 
间 ， 第 二 步 就 在 新 的 空间 搜索 分 离 超 平面 。 我 们 又 遇 到 二 次 优化 问题 ， 可 以 用 线性 SVM 公 
式 求解 。 在 新 空间 找到 的 最 大 边缘 超 平面 对 应 于 原 空 间 中 的 非 线 性 分 离 超 曲面 。 

例 9.2 原 输入 数据 到 较 高 维 空 间 的 非 线性 变换 。 考 虑 下 面 的 例子 。 使 用 映射 p(X) = 
ti, (X) =%, p(X) =x, $,(X) =(x,)*, $;(X) =x,%, 和 p(X) =x%3， 把 一 个 3 维 
MAME X=(x,, x, x) 映射 到 6 维 空间 Z 中 、 在 新 空间 中 ， 决 策 超 平面 是 d(Z) = 
WZ +b， 其 中 W 和 Z 是 向 量 。 这 是 线性 的 。 我 们 解 W 和 28， 然后 替换 回去 ， 使 得 新 空间 
(Z) 中 的 线性 决策 超 平面 对 应 于 原来 3 维 空间 中 非 线 性 的 二 次 多 项 式 

d(Z) = wx, + wx, + Waxs + wal Xi)? + wxx, + Wea, x, +b m 
= WZ) + Wad. + WZ, + Waz4 + Wszs + WZ +b 
但 是 ， 还 存在 一 些 问题 。 首 先 ， 如 何 选择 到 较 高 维 空间 的 非 线性 映射 ? 其 次 ， 所 涉及 的 计算 
开销 将 很 大 。 考 虑 对 检验 元 组 和 ”分 类 的 (9. 19) 式 。 给 定 该 检验 元 组 ， 我 们 必须 计算 与 每 
个 支持 向 量 的 点 积 ” 。 在 训练 阶段 ， 我 们 也 必须 多 次 计算 类 似 的 点 积 ， 以 便 找 出 最 大 边缘 超 
曲面 (MMH) 。 这 种 开销 特别 大 。 因 此 ， 点 积 所 需要 的 计算 量 很 大 并 且 开销 很 大 。 我 们 需要 
其 他 技巧 。 

幸运 的 是 ,我 们 可 以 使 用 另 一 种 数学 技巧 。 在 求解 线性 SVM 的 二 次 最 优化 问题 时 〈 即 
在 新 的 较 高 维 空间 搜索 线性 SVM 时 ) ， 训 练 元 组 仅 出 现在 形 如 pX) b(X,) 的 点 积 中 ， 
HF pX) 只 不 过 是 用 于 训练 元 组 变换 的 非 线性 映射 函数 。 结 果 表 明 ， 它 完全 等 价 于 将 核 函 
XKX., X) 应 用 于 原 输入 数据 ， 而 不 必 在 变换 后 的 数据 元 组 上 计算 点 积 。 即 

K(X,,X;) = $(X,).6(X%) (9. 20) 
换言之 , FAP) PX) 出 现在 训练 算法 中 时 ， 我 们 都 可 以 用 天 (天 ,万 ) BRE. X 
样 ， 所 有 的 计算 都 在 原来 的 输入 空间 上 进行 ， 这 可 能 是 低 得 多 的 维度 。 我 们 可以 各 名 了 
射 一 一 事实 上 ， 我 们 甚至 不 必 知 道 该 映射 是 什么 。 稍 后 ， 我 们 将 更 详细 地 讨论 什么 函数 可 以 
用 作 该 问题 的 核 函 数 。 

使 用 这 种 技巧 之 后 ， 我 们 可 以 找 出 最 大 分 离 超 平面 。 该 过 程 与 9.3. 1 节 介 绍 的 过 程 类 
似 ， 尽 管 它 涉及 在 上 面 的 拉 格 朗 日 乘 子 w 上 设置 一 个 用 户 指定 的 上 界 C。 该 上 界 通 过 实验 
确定 。 

“可 以 使 用 什么 样 的 核 函 数 ?” 可 以 用 来 将 换 上 面 的 点 积 的 核 函数 的 性 质 已 经 被 深入 研 
究 。3 种 可 以 使 用 的 核 沙 数 包括 : 

hh RBWABBM:K(X,,X)) = (X.X, +1)" 
aT be) BK K(X,,X,) = e7 1X12 
S BBW: K(X,,X,) = tanh(« X, - X, - 8) 
这 些 核 函数 每 个 都 导致 ( 原 ) 输入 空间 上 的 不 同 的 非 线性 分 类 器 。 神 经 网 络 的 爱好 者 





Ə 两 个 向 量 A = Gf, a, ory x) AUX, = (x), Xs, Xin) 的 点 积 是 x7, talx tee talano 注意 ， 对 于 nn 
个 维 都 涉及 一 次 乘法 和 一 次 加 法 。 
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可 能 注意 到 ， 非 线性 的 SVM 所 发 现 的 决策 超 曲面 与 其 他 著名 的 神经 网 络 分 类 器 所 发 现 的 同 
属 一 种 类 型 。 例 如 ， 具 有 高 斯 径 向 基 函 数 (RBF) 的 SVM SPREE I ERK (RBF) 网 络 
的 一 类 神经 网 络 产生 相同 的 决策 超 曲面 。 具 有 S 型 核 的 SVM 等 价 于 一 种 称 做 多 层 感 知 器 
(无 隐藏 层 ) 的 简单 2 层 神经 网 络 。 

没有 一 种 “黄金 规则 ”可 以 确定 哪 种 可 用 的 核 函 数 将 推导 出 最 准确 的 SVM。 在 实践 中 ， 
核 函数 的 选择 一 般 并 不 导致 结果 准确 率 的 很 大 差别 。SVM 训练 总 是 发 现 全 局 解 ， 而 不 像 诸 
如 后 向 传播 等 神经 网 络 常常 存在 局 部 极 小 (9.2.3 节 ) 。 

迄今 为 止 ， 我 们 已 经 介绍 了 二 元 〈 即 两 类 ) 分 类 的 线性 和 非 线 性 SVM。 对 于 多 类 问题 ， 
可 以 组 合 SVM 分 类 器 。 某 些 策略 ， 如 每 类 训练 一 个 分 类 器 和 使 用 纠 错 码 ， 见 9. 7. 1 节 。 

关于 SVM， 主 要 研究 目标 是 提高 训练 和 检验 速度 ， 使 得 SVM 可 以 成 为 超大 型 数据 集 
(例如 ， 数 以 百 万 计 的 支持 向 量 ) 更 可 行 的 选择 。 其 他 问题 包括 ， 为 给 定 的 数据 集 确定 最 佳 
核 函 数 ， 为 多 类 问题 找 出 更 有 效 的 方法 。 


9.4 ”使 用 频繁 模式 分 类 


频繁 模式 (frequent pattem) 显示 了 频繁 地 出 现在 给 定数 据 集中 的 属性 - 值 对 之 间 的 有 
趣 联系 。 例 如 ， 我 们 可 能 发 现 属性 - 值 对 age = youth 和 credit = OK 出 现在 20% 的 购买 计算 机 
的 AllElectronics 顾客 元 组 中 。 我 们 可 以 把 每 个 属性 - 值 对 看 做 一 个 项 ， 因 此 搜索 这 种 频繁 模 
式 称 做 频繁 模式 挖 据 或 频繁 项 集 挖 气 。 在 第 6 章 和 第 7 章 ， 我 们 看 到 如 何 由 频繁 模式 导出 关 
联 规则 ， 那 里 关联 通常 用 于 分 析 顾 客 在 商店 的 购买 模式 。 这 种 分 析 可 以 用 于 许多 决策 过 程 ， 
如 产品 布局 、 分 类 设计 和 交叉 购物 。 

本 节 ， 我 们 考察 如 何 把 频繁 模式 用 于 分 类 。9. 4. 1 节 探 索 关 联 分 类 ， 其 中 关联 规则 由 频 
繁 模式 产生 并 用 于 分 类 。 其 基本 思想 是 ， 我 们 可 以 搜索 频繁 模式 (属性 - 值 对 的 合 取 ) 与 
类 标号 之 间 的 强 关 联 。9. 4. 2 节 探 索 基 于 有 区 别 力 的 频繁 模式 分 类 ， 其 中 ， 在 构建 分 类 模型 
时 ， 频 繁 模式 充当 组 合 特征 ， 可 以 看 做 是 对 单个 特征 的 补充 。 由 于 频繁 模式 考察 多 个 属性 之 
间 的 高 置信 度 关联 ， 因 此 基于 频繁 模式 的 分 类 可 能 克服 决策 树 归纳 一 次 只 考虑 一 个 属性 的 限 
制 。 研 究 表 明 ， 许 多 基于 频繁 模式 的 分 类 方法 比 诸如 C4. 5 等 传统 的 分 类 方法 更 准确 、 更 可 
伸缩 。 l 


9.4.1 关联 分 类 


本 节 ， 我 们 将 学 习 关 联 分 类 ， 讨 论 3 种 方法 : CBA, CMAR 和 CPAR, 
在 开始 讨论 之 前 ， 让 我 们 先 考 虑 关联 规则 挖 气 。 关 联 规则 挖掘 是 一 个 两 步 过程 ， 包 括 频 
繁 模式 挖 握 ， 后 随 规则 产生 。 第 一 步 搜索 反复 出 现在 数据 集中 的 属性 - 值 对 的 模式 ， 其 中 属 
性 - 值 对 看 做 项 。 结 果 属 性 ~- 值 对 形成 频繁 项 集 (又 称 频繁 模式 ) 。 第 二 步 分 析 频 繁 模式 ， 
以 便 产 生 关联 规则 。 所 有 的 关联 规则 关于 它们 的 “准确 率 ”( 或 置信 度 ) 和 它们 实际 代表 的 
数据 集 的 比例 〈 称 做 支持 度 ) 必须 满足 一 定 的 标准 。 例 如 ， 下 面 是 从 数据 集 D 中 控 据 的 一 
个 关联 规则 ， 显 示 了 它 的 置信 度 和 支持 度 。 
age = youth M credit = OK=>buys_computer 
= yes[ support = 20% , confidence = 93% ] (9.21) 
其 中 ,“ 人 ”表示 逻辑 “AND”。 我 们 进一步 讨论 支持 度 和 置信 度 。 
更 正式 地 ， 设 D 是 元 组 的 数据 集合 。D 中 每 个 元 组 用 n 个 属性 4, ，4,，…，4, 和 一 个 
类 标号 属性 4。 描述。 所 有 的 连续 属性 都 被 离散 化 并 按 分 类 (或 标 称 ) 属性 处 理 。 项 p 是 一 
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Sea (A, o) 的 属性 - 值 对 ， 其 中 4; 是 属性 ， 取 值 v。 数 据 元 组 里 = (x, x, 0, xn) 
满足 项 p = (4;，v) ， 当 和 且 仅 当 x; 50, 其 中 x, 是 下 的 第 :个 属性 的 值 。 关 联 规则 的 规则 前 件 
(Am) 可 以 有 任意 多 个 项 ， 并 且 规 则 的 后 件 〈 右 部 ) 也 可 以 有 任意 多 个 项 。 然 而 ， 在 挖掘 
用 于 分 类 的 关联 规则 时 ， 我 们 只 对 形 如 pi AP Ao Pp A crass = C 的 关联 规则 感 兴趣 ， 其 中 规 
则 的 前 件 是 项 ( 形 如 pl!， p;,，…，p: (1<n)) 的 合 取 ， 与 一 个 类 标号 C 相关 联 。 对 于 一 
个 给 定 的 规则 R，D 中 满足 该 规则 前 件 也 具有 类 标号 C 的 元 组 所 占 的 百分比 称 做 R 的 置 
信和 度 。 

从 分 类 角度 ,这 类 似 于 规则 的 准确 率 。 例 如 ， 关 联 规则 (9.21) 的 93% 的 置信 和 度 意味 
D 中 身 为 青年 人 并 且 信 誉 度 为 OK 的 顾客 中 ，93% 属于 类 buys_computer = yes。D 中 满足 规则 
前 件 并 具有 类 标号 C 的 元 组 所 占 的 百分比 称 规则 R 的 支持 度 。 关 联 规则 (9.21) 的 支持 度 
20% 意味 D 中 20% 的 顾客 是 青年 ， 信 誉 为 OK， 并 有 旦 属于 类 buys_computer = yes, 

一 般 而 言 ， 关 联 规则 分 类 包括 以 下 步 又 : 

(1) 挖掘 数据 ， 得 到 频繁 项 集 ， 即 找 出 数据 中 经 常 出 现 的 属性 - 值 对 。 

(2) 分 析 频 繁 项 集 ， 产 生 每 个 类 的 关联 规则 ， 它 们 满足 置信 度 和 支持 度 标 准 。 

(3) 组 织 规 则 ， 形 成 基于 规则 的 分 类 器 。 

关联 分 类 方法 的 主要 不 同 在 于 挖掘 频繁 项 集 所 用 的 方法 、 如 何 将 被 分 析 的 规则 导出 并 用 
于 分 类 。 现 在 ， 我 们 考察 关联 分 类 的 各 种 方法 。 

最 早 、 最 简单 的 关联 分 类 算法 是 基于 分 类 的 关联 (Classification Based on Association, 
CBA). CBA 使 用 迭代 方法 挖掘 频繁 项 集 ， 类 似 于 6. 2. 1 节 介绍 的 Apriori 算法 ， 其 中 多 遍 扫 
描 数据 集 ， 导 出 的 频繁 项 集 用 来 产生 和 测试 更 长 的 项 集 。 一 般 而 言 ， 扫 描 的 遍 数 等 于 所 发 现 
的 最 长 的 规则 的 长 度 。 找 出 满足 最 小 置信 和 度 和 最 小 支持 度 阐 值 的 规则 的 完全 集 后 ， 然 后 分 
析 ， 找 出 包含 在 分 类 器 中 的 规则 。CBA 使 用 一 种 启发 式 方法 构造 分 类 器 ， 其 中 规则 按照 它 
们 的 置信 和 度 和 支持 度 递 减 优先 级 排序 。 如 果 一 组 规则 具有 相同 的 前 件 ， 则 选取 具有 最 高 置信 
度 的 规则 代表 该 集合 。 在 对 新 元 组 分 类 时 ， 使 用 满足 该 元 组 的 第 一 个 规则 对 它 进行 分 类 。 分 
类 器 还 包含 一 个 默认 规则 ， 具 有 最 低 优先 级 ， 用 来 为 不 能 被 分 类 器 中 其 他 规则 满足 的 新 元 组 
指定 默认 类 。 这 样 ， 构 成 分 类 器 的 规则 的 集合 形成 一 个 决策 表 。 一 般 而 言 ， 实 验 表明 CBA 
在 大 量 数 据 集 上 比 C4. 5 更 准确 。 

基于 多 关联 规则 的 分 类 (Classification based on Multiple Association Rules, CMAR) 在 频 
繁 项 集 控 气 和 分 类 器 构造 方面 都 不 同 于 CBA。 它 还 借助 于 树 结 构 有 效 存储 和 检索 规则 ， 使 
用 多 种 规则 剪 枝 策略 。CMAR 采用 FP- growth 算法 的 变形 来 发 现 满足 最 小 支持 度 和 最 小 置信 
度 阔 值 的 规则 的 完全 集 。FP-growth 算法 已 在 6. 2. 4 节 介 绍 。FP- growth 算法 使 用 称 做 FP- 树 
的 结构 记录 包含 在 数据 集 D 中 的 所 有 频繁 项 集 信息 ， 仅 需要 扫描 D 两 次 。 然 后 从 FP- 树 挖 握 
频繁 项 集 。CMAR 使 用 一 种 加 强 的 FP- 树 ， 记 录 满足 每 个 频繁 项 集 的 元 组 的 类 标号 分 布 。 这 
样 ， 它 可 以 把 规则 产生 与 频繁 项 集 控 所 合并 成 一 步 。 

CMAR 还 使 用 另 一 种 树 结构 来 有 效 地 存储 和 提取 规则 ， 并 根据 置信 和 度 、 相 关 度 和 数据 库 
黎 盖 率 对 规则 剪 枝 。 当 规则 插 人 该 树 时 就 触发 规则 剪 枝 策 略 。 例 如 ， 给 定 两 个 规则 RI1 和 
R2, WR R1 的 前 件 比 R2 更 一 般 ， 并 且 conf(R1) Sconf( R2), ， 则 剪 去 刀 。 其 基本 原理 是 ， 
如 果 规 则 存在 具有 更 高 置信 度 的 更 泛 化 的 版 本 ， 则 可 以 前 去 具有 低 置 信和 度 的 更 特殊 化 的 规 
则 。CMAR 还 根据 统计 显著 性 x 检验 剪 去 规则 前 件 与 类 并 非 正 相 关 的 规则 。 

“如 果 多 个 规则 可 用 ， 我 们 使 用 哪 一 个 ?” 作 为 分 类 法 ，CMAR 的 运作 也 与 CBA 不 同 。 
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假设 给 定 的 待 分 类 的 元 组 为 六， 并 且 只 有 一 个 规则 满足 或 匹配 ©。 这 种 情况 是 平凡 的 一 一 
我 们 简单 地 把 规则 的 类 标号 指派 给 无。 假设 多 个 规则 满足 互 。 这 些 规则 形成 一 个 集合 5S。 使 
用 哪个 规则 确定 站 的 类 标号 ”CBA 将 把 规则 集合 Ss 中 具有 最 大 置信 和 度 的 规则 的 类 标号 指派 
给 时， 而 CMAR 在 作出 它 的 类 预测 时 考虑 多 个 规则 。 它 根据 类 标号 将 规则 分 组 。 在 一 个 组 中 
的 所 有 规则 都 具有 相同 的 类 标号 ， 而 在 不 同 组 中 的 规则 具有 不 同 的 类 标号 。 

CMAR 使 用 加 权 的 Xx 度量 ， 根 据 组 中 规则 的 统计 相关 性 找 出 “最 强 的 ” 规则 组 。 然 后 
把 于 的 类 标号 指派 为 最 强 的 组 的 类 标号 。 这 样 ， 在 预测 新 元 组 的 类 标号 时 ， 它 考虑 多 个 规 
则 ， 而 不 只 是 一 个 具有 最 高 置信 和 度 的 规则 。 实 验 表 明 ，CMAR tt CBA 的 平均 准确 率 稍 高 。 
它 的 运行 时 间 、 可 伸缩 性 和 内 存 使 用 都 更 有 效 。 

“有 没有 方法 减少 产生 的 规则 数量 ?”CBA 和 CMAR 都 采用 频繁 项 集 挖掘 的 方法 产生 候 
选 关 联 规则 。 这 些 规则 包含 所 有 满足 最 小 支持 度 的 属性 - 值 对 (项) 的 合 取 。 然 后 考察 这 
些 规 则 ， 选 出 表示 分 类 器 的 子 集 。 然 而 ， 这 种 方法 产生 的 规则 相当 多 。CPAR ( Classification 
based on Predictive Association Rules， 基 于 预测 关联 规则 的 分 类 ) 采用 了 不 同方 法 产生 规则 ， 
基于 一 种 称 做 FOIL ( 见 8.4.3 节 ) 的 分 类 规则 产生 算法 。FOIL 构造 规则 来 区 别 正 元 组 (如 
类 buys_computer = yes 的 元 组 ) 和 人 负 元 组 (如 类 buys_computer = no 的 元 组 )。 对 于 多 类 问题 ， 
将 FOIL 用 于 每 一 个 类 。 也 就 是 说 ， 对 于 类 C， 类 C 的 所 有 元 组 都 看 做 正 元 组 ， 而 其 余 的 都 
看 做 负 元 组 。 产 生 规则 以 区 分 C 类 和 其 他 类 的 元 组 。 每 当 产 生 一 个 规则 时 ， 就 删除 它 满足 
(RA) 的 正 样本 ， 直 到 数据 集合 中 所 有 的 正 元 组 都 被 覆盖 。 这 样 ， 产 生 的 规则 更 少 。 
CPAR 放宽 了 这 一 步 ， 人 允许 被 覆盖 的 元 组 留 下 并 被 考虑 ， 但 是 降低 它们 的 权重 。 对 每 个 类 重 
复 该 过 程 。 结 果 规 则 被 合并 在 一 起 ， 形 成 分 类 器 的 规则 集 。 

在 分 类 时 ，CPAR 采用 多 少 有 些 不同 于 CMAR 的 多 规则 策略 。 如 果 多 个 规则 满足 新 元 组 
X, WWWF CMAR， 这 些 规 则 将 按 类 分 组 。 然 而 ，CPAR 根据 期 望 准确 率 ， 使 用 每 组 中 的 
最 好 的 上 个 规则 预测 对 的 类 标号 。 通 过 考虑 组 中 最 好 的 上 个 规则 而 不 是 所 有 的 规则 ， 这 避免 
了 较 低 秩 规则 的 影响 。 在 大 量 数据 集 上 ，CPAR 的 准确 率 与 CMAR 接近 。 然 而 ， 由 于 CPAR 
产生 的 规则 比 CMAR 少 得 多 ， 对 于 大 型 训练 数据 集 ，CPAR 有 效 得 多 。 

总 之 ， 关 联 分 类 根据 数据 中 频繁 出 现 的 属性 - 值 对 的 合 取 构 造 规则 ， 提 供 了 一 种 新 的 可 
选 的 分 类 模式 。 


9. 4.2 基于 有 区 别 力 的 频繁 模式 分 类 


从 关联 分 类 我 们 看 到 频繁 模式 反映 了 数据 中 属性 - 值 对 (项 ) 之 间 的 强 关 联 ， 并 且 对 
于 分 类 是 有 用 的 。 

“但 是 ， 用 于 分 类 的 频繁 模式 的 区 别 能 力 怎 么 样 ?” 频 繁 模 式 代表 特征 组 合 。 让 我 们 比 
较 一 下 频繁 模式 与 单个 特征 的 区 别 能 力 。 对 于 3 个 UCI 数据 集 > ， 图 9. 11 绘制 了 频繁 模式 
和 单个 特征 〈 即 长 度 等 于 1 的 模式 ) 的 信息 增益 。 某 些 频繁 模式 的 区 别 能 力 比 单个 特征 强 。 
它们 捕获 了 数据 更 内 在 的 语义 ， 因 此 比 单个 特征 更 具 表达 能 力 。 

“在 构建 分 类 模型 时 ， 除 了 单个 特征 外 ， 为 什么 不 把 频繁 模式 看 做 组 合 特征 呢 ?” 这 种 
观念 是 基于 频繁 模式 分 类 的 基础 一 一 在 既 包 含 单个 属性 又 包含 频繁 模式 的 特征 空间 学 习 分 类 
模型 。 这 样 ， 我 们 把 原 特 征 空间 转换 到 更 大 的 空间 。 这 可 能 提高 包含 重要 特征 的 机 会 。 





加 ”如果 一 个 规则 的 前 件 满足 或 匹配 瑟 ， 则 称 该 规则 满足 X。 
已 ”加 州 大 学 欧文 分 校 《UCI) 在 http: /kdd. ics. uci. edu/ 保 存 了 许多 大 型 数据 集 。 这 些 数据 集 被 许多 研究 者 用 来 测试 
和 上 比较 机 器 学 习 和 数据 挖掘 算法 。 
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图 9.11 单个 特征 与 频繁 模式 : 3 个 UCI 数据 集 的 单个 特征 〈 长 度 为 1 的 模式 ， 用 箭头 指示 ) 
和 频繁 模式 (组合 特征 ) 的 信息 增益 。 取 自 Cheng, Yan, Han 和 Hsu[ CYHHO7 ] 

让 我 们 回 到 最 初 的 区 别 能 力 如 何 ? 频繁 项 集 挖掘 产生 的 许多 频繁 模 
式 都 没有 区 别 能 力 ， 因 为 它们 只 基于 支持 度 ， 而 不 考虑 预测 能 力 。 也 就 是 说 ， 根 据 定 义 ， 为 
了 成 为 频繁 的 ， 一 个 模式 必须 满足 用 户 定义 的 最 小 支持 度 阐 值 min_sup。 例 如 ， 如 果 
min_sup = 5% ， 则 一 个 模式 是 频繁 的 ， 如 果 它 出 现在 5% 的 数据 元 组 中 。 考 虑 图 9. 12 ， 它 绘 
制 了 3 个 UCI 数据 集 的 模式 频 度 (支持 度 ) 与 信息 增益 ， 还 绘制 出 了 分 析 推 导出 的 信息 增 
益 的 理论 上 界 。 该 图 显示 ， 低 频 度 的 模式 的 区 别 能 力 〈 用 信息 增益 评估 ) 受 限于 一 个 小 上 
界 。 这 是 因为 这 种 模式 对 数据 集 的 覆盖 范围 有 限 。 类 似 地 ， 很 高 频 度 的 模式 的 区 别 力也 受 限 
于 一 个 小 上 界 ， 这 是 因为 它们 在 数据 中 的 普遍 性 。 信 息 增益 的 上 界 是 模式 频 度 的 函数 。 信 息 
增益 的 上 界 随 着 模式 频 度 单调 增加 。 这 一 观察 可 以 解析 地 证 实 。 支 持 度 居中 的 模式 〈 例 如 ， 
在 图 9. 12a}, support =300) 可 能 有 区 别 力 ， 也 可 能 没有 。 因 此 ， 并 非 所 有 频繁 模式 都 是 [A9 
有 用 的 。 

如 果 我 们 把 所 有 的 频繁 模式 都 添加 到 特征 空间 ， 则 结果 特征 空间 将 会 很 大 。 这 会 减 慢 某 
些 学 习 过 程 ， 并 且 还 可 能 因为 特征 太 多 而 过 分 拟 合 ， 导 致 准确 率 降低 。 许 多 模式 可 能 是 元 余 
的 。 因 此 ,一 种 好 的 做 法 是 使 用 特征 选择 ， 删 除 那些 区 别 能 力 较 弱 和 元 余 的 频繁 模式 。 基 于 
有 区 别 力 的 频繁 模式 分 类 的 一 般 框架 如 下 : 
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图 9.12 3 个 UCI 数 据 集 的 模式 频 度 〈 支 持 度 ) 与 信息 增益 。 还 显示 了 信息 增益 的 理论 上 界 


(IGupperBount ) 。 取 自 Cheng, Yan, Han 和 Hsul CYHHO7 ] 
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(1) 特征 产生 : 根据 类 标号 划分 数据 集 D。 使 用 频繁 项 集 挖 气 ， 发 现 每 个 分 区 中 满足 
最 小 支持 度 的 频繁 模式 。 频 繁 模式 的 集合 下 形成 候选 特征 。 
(2) 特征 选择 : 对 下 进行 特征 选择 ， 得 到 选择 后 的 〈 更 有 区 别 能 力 的 ) 频繁 模式 集 
Fs。 此 步骤 可 以 使 用 信息 增益 、Fisher 得 分 或 其 他 评估 度量 。 还 可 以 把 相关 性 检验 也 结合 到 
该 步骤 中 ， 清 除 元 余 模 式 。 数 据 集 D 变换 成 D'， 其 中 特征 空间 现在 包含 单个 特征 和 选取 的 


频繁 模式 Fso 

(3) 学 习 分 类 模型 : 在 数据 集 D' 上 建立 
分 类 器 。 任 何 学 习 算法 都 可 以 用 来 建立 分 类 
模型 。 

一 般 框架 概括 在 图 9. 13a 中 ， 其 中 有 区 别 
能 力 的 模式 用 黑色 实心 贺 表 示 ， 尽管 该 方法 是 
简单 的 ， 但 是 我 们 仍然 可 能 遇 到 计算 瓶颈 一 一 
必须 找 出 所 有 频繁 模式 ， 然 后 分 析 每 一 个 以 进 
行 选 择 。 由 于 项 的 组 合 导 致 的 模式 数量 爆炸 ， 
所 发 现 的 频繁 模式 可 能 数量 巨大 。 

为 了 提高 该 方法 的 效率 ， 考 虑 把 步骤 1 和 
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2 浓缩 为 一 步 。 即 有 可 能 只 挖掘 具有 高 度 区 别 能 力 的 频繁 模式 的 集合 ， 而 不 是 产生 频繁 模式 
的 完全 集 。 这 种 更 直接 的 方法 称 做 有 区 别 能 力 的 模式 的 直接 挖 氢 。DDPMine 算法 采用 这 种 
方法 ， 如 图 9. 13b 所 示 。 它 首先 把 训练 数据 变换 到 一 个 称 做 频繁 模式 树 或 了 P- 树 (6.2.4 节 ) 
的 紧凑 树 结构 。 该 树 保存 了 所 有 属性 - 值 对 〈 项 集 ) 的 关联 信息 。 然 后 在 树 中 搜索 有 区 别 
能 力 的 模式 。 这 种 方法 是 直接 的 ， 因 为 它 避 免 产 生 大 量 无 区 别 能 力 的 模式 。 它 通过 删除 训练 
元 组 ， 进 而 逐步 收缩 如 - 树 ， 逐 渐 地 简化 问题 。 这 进一步 加 快 了 挖掘 速度 。 

通过 变换 原 数据 到 FP- 树 ，DDPMine 避免 产生 元 余 模 式 ， 因 为 FP- 树 只 存放 闭 频繁 模式 。 
根据 定义 ， 对 于 闭 模式 a MA, a 的 任何 子 模 式 B 都 是 元 余 的 〈6. 1.2 7), DDPMine 直接 
挖掘 有 区 别 能 力 的 模式 ， 并 且 把 特征 选择 集成 到 挖掘 框架 中 。 使 用 信息 增益 的 理论 上 界 以 便 
于 分 支 定 界 搜索 ， 这 显著 地 修剪 了 搜索 空间 。 实 验 结果 表明 ，DDPMine 比 两 步 方法 的 速度 
提高 了 几 个 数量 级 ， 而 不 降低 分 类 准确 率 。 在 准确 率 和 效率 两 个 方面 ，DDPMine 都 优 于 最 
先进 的 关联 分 类 方法 。 
9.5 情 性 学 习 法 〈 或 从 近邻 学 习 ) 

迄今 为 止 ， 本 书 所 讨论 的 分 类 方法 一 一 决策 树 归纳 、 贝 叶 斯 分 类 、 基 于 规则 的 分 类 、 后 
向 传播 分 类 、 支 持 向 量 机 和 基于 关联 规则 挖掘 的 分 类 一 一 都 是 急切 学 习 法 的 例子 。 当 给 定 训 
练 元 组 集 时 ， 和 急切 学 习 法 (eager leaner) 在 接收 待 分 类 的 新 元 组 (如 检验 元 组 ) 之 前 就 构 
造 泛 化 模型 ( 即 分 类 模型 )。 我 们 可 以 认为 学 习 后 的 模型 已 经 就 绪 ， 并 急于 对 先前 未 见 过 的 
元 组 进行 分 类 。 

想象 相反 的 惰性 方法 ， 其 中 学 习 程序 直到 对 给 定 的 检验 元 组 分 类 之 前 的 一 刻 才 构 造 模 
型 。 也 就 是 说 ， 当 给 定 一 个 训练 元 组 时 ， 情 性 学 习 法 (lazy leamer) 简单 地 存储 它 ( 或 只 是 
稍 加 处 理 )， 并且 一 直 等 待 ， 直 到 给 定 一 个 检验 元 组 。 仅 当 看 到 检验 元 组 时 ， 它 才 进 行 泛 
化 ， 以 便 根 据 与 存储 的 训练 元 组 的 相似 性 对 该 元 组 进行 分 类 。 不 像 急 切 学 习 方法 ， 惰 性 学 习 
法 在 提供 训练 元 组 时 只 做 少量 工作 ， 而 在 进行 分 类 或 数值 预测 时 做 更 多 的 工作 。 由 于 惰性 学 
习 法 存储 训练 元 组 或 “实例 ”， 它 们 也 称 基 于 实例 的 学 习 法 (instance-based learner) ， 尽 管 
所 有 的 学 习 本 质 上 都 是 基于 实例 的 。 

在 做 分 类 或 数值 预测 时 ， 情 性 学 习 法 的 计算 开销 可 能 相当 大 。 它 们 需要 有 效 的 存储 技 
术 ， 并 且 非 常 适 合 在 并 行 硬件 上 实现 。 它 们 不 提供 多 少 解释 或 对 数据 结构 的 洞察 。 然 而 ， 情 
性 学 习 法 天 生地 支持 增 量 学 习 。 它 们 也 能 对 具有 超 多 边 形 形 状 的 复杂 决策 空间 建 模 ， 这 些 可 
能 不 太 容易 被 其 他 学 习 算法 描述 〈 如 被 决策 树 建 模 的 超 矩形 形状 ) 。 本 节 考 察 两 个 惰性 学 习 
法 的 例子 : 下 -最 近邻 分 类 (9.5.1 节 ) 和 基于 案例 的 推理 分 类 (9.5.2 节 )。 


9.5.1 大 最 近邻 分 类 

-最 近邻 方法 是 20 世纪 50 年 代 早 期 首次 引进 的 。 当 给 定 大 量 数据 集 时 ， 该 方法 是 计算 
密集 的 ， 直 到 20 世纪 60 年 代 计算 能 力 大 大 增强 之 后 才 流 行 起 来 。 此 后 它 广泛 用 于 模式 识别 
领域 。 

最 近邻 分 类 法 是 基于 类 比 学 习 ， 即 通过 将 给 定 的 检验 元 组 与 和 它 相似 的 训练 元 组 进行 比 
较 来 学 习 。 训 练 元 组 用 个 属性 描述 。 每 个 元 组 代表 维 空间 的 一 个 点 。 这 样 ， 所 有 的 训练 
元 组 都 存放 在 n 维 模式 空间 中 。 当 给 定 一 个 未 知 元 组 时 ，k- 最 近邻 分 类 法 (k-nearest- neigh- 
bor classifier) 搜索 模式 空间 ， 找 出 最 接近 未 知 元 组 的 个 训练 元 组 。 这 上 个 训练 元 组 是 未 知 
元 组 的 上 个 “最 近邻 ”。 
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“邻近 性 ” 用 距离 度量 ， 如 欧 几 里 得 距离 。 两 个 点 或 元 组 xX, = (xu, Mine “*', Xin) 和 
X, = (xz, Xn, s Xan ) 的 欧 几 里 得 距离 是 : 





dist(X,,X,) = $ (my -= xy)? (9.22) 


换言之 ， 对 于 每 个 数值 属性 ， 我 们 取 元 组 和 和 该 属性 对 应 值 的 差 ， 取 差 的 平方 和 ， 并 取 
甚 平方根。 通常 ， 在 使 用 (9.22) 式 之 前 ， 我 们 把 每 个 属性 的 值 规范 化 。 这 有 助 于 防止 具 
有 较 大 初始 值 域 的 属性 (如 收入 ) 比 具 有 较 小 初始 值 域 的 属性 (如 二 元 属性 ) 的 权重 过 大 。 
例如 ， 可 以 通过 计算 下 式 ， 使 用 最 小 -最 大 规范 化 把 数值 属性 4 的 值 v 变换 到 [0，1] 区 间 
中 的 vw 

v s A (9.23) 

max, 一 min, 

HR, min, 和 max, 分 别 是 属性 4 的 最 小 值 和 最 大 值 。 第 2 章 还 从 数据 变换 角度 介绍 了 数据 
规范 化 的 其 他 方法 。 

对 于 左 -最 近邻 分 类 ， 未 知 元 组 被 指派 到 它 的 上 个 最 近邻 中 的 多 数 类 。 当 上 = 1 时 ， 未 知 
元 组 被 指派 到 模式 空间 中 最 接近 它 的 训练 元 组 所 在 的 类 。 最 近邻 分 类 也 可 以 用 于 数值 预测 ， 
即 返 回 给 定 未 知 元 组 的 实数 值 预 测 。 在 这 种 情况 下 ， 分 类 器 返回 未 知 元 组 的 个 最 近邻 的 实 
数值 标号 的 平均 值 。 

“但 是 ， 如 果 属 性 不 是 数值 的 而 是 标 称 的 (或 类 别 的 ) 如 颜色 ， 如 何 计算 距离 ?” big 
的 讨论 假定 用 来 描述 元 组 的 属性 都 是 数值 的 。 对 于 标 称 属性 ， 一 种 简单 的 方法 是 比较 元 
组 和 中 对 应 属性 的 值 。 如 果 二 者 相同 〈 例 如 ， 元 组 XY, AX, 均 为 蓝 色 ) ， 则 二 者 之 
间 的 差 为 0。 如 果 二 者 不 同 ( 例 如， 元 组 XX RRA, MICA X, 是 红色 ) ， 则 二 者 之 间 的 
差 为 1。 其 他 方法 可 能 采用 更 复杂 的 方案 (例如 ， 对 蓝 色 和 白色 赋 子 比 蓝 色 和 黑色 更 大 的 
差 值 ) 。 

“RANE Zap?” HH, WRIA X, A/R X, 在 给 定 属性 4 上 的 值 缺 失 ， 则 我 们 假定 
取 最 大 的 可 能 差 。 假 设 每 个 属性 都 已 经 映射 到 [0，1] 区 间 。 对 于 标 称 属性 ， 如 果 4 的 一 
个 或 两 个 对 应 值 缺 失 ， 则 我 们 取 差 值 为 1。 如 果 A 是 数值 属性 ， 并 且 在 元 组 大 AIX, 上 都 缺 
失 ， 则 差 值 也 取 1。 如 果 只 有 一 个 值 缺 失 ， 而 另 一 个 存在 并 且 已 经 规范 化 ( 记 作 wv)， 则 取 
224 |1-0'| 和 10 -> | 中 的 最 大 者 。 

“如 何 确定 近邻 数 天 的 值 ?” 这 可 以 通过 实验 来 确定 。 从 左 = 工 开始 ， 使 用 检验 集 估 计 分 
类 器 的 错误 率 。 重 复 该 过 程 ， 每 次 上 增值 1， 人 允许 增加 一 个 近邻 。 可 以 选取 产生 最 小 错误 率 
的 上 。 一 般 而 言 ， 训 练 元 组 越 多 ,& 的 值 越 大 (使 得 分 类 和 数值 预测 决策 可 以 基于 存储 元 组 
的 较 大 比例 ) 。 随 着 训练 元 组 数 趋向 于 无 穷 并 且 =1， 错 误 率 不 会 超过 贝 叶 斯 错误 率 的 2 AÈ 
(后 者 是 理论 最 小 错误 率 ) 。 如 果 也 趋向 于 无 穷 ， 则 错误 率 趋向 于 贝 叶 斯 错误 率 。 

最 近邻 分 类 法 使 用 基于 距离 的 比较 ， 本 质 上 赋予 每 个 属性 相等 的 权重 。 因此 ， 当 数据 存 
在 噪声 或 不 相关 属性 时 ， 它 们 的 准确 率 可 能 受到 影响 。 然 而 ， 这 种 方法 已 经 被 改进 ， 结 合 属 
性 加 权 和 噪声 数据 元 组 的 剪 枝 。 距 离 度量 的 选择 可 能 是 至 关 重 要 的 。 也 可 以 使 用 曼哈顿 
(城市 块 ) 距离 (2.4.4 47) 或 其 他 距离 度量 。 

最 近邻 分 类 法 在 对 检验 元 组 分 类 时 可 能 非常 慢 。 如 果 吃 是 有 1D | 个 元 组 的 训练 数据 库 ， 
而 上 =1， 则 对 一 个 给 定 的 检验 元 组 分 类 需要 0( |D|) 次 比较 。 通过 预先 排序 并 将 排序 后 的 
元 组 安排 在 搜索 树 中 ， 比 较 次 数 可 以 降低 到 0(log | D | )。 并 行 实现 可 以 把 运行 时 间 降 低 为 
常数 ， 即 0O(1) ， 独 立 于 1D | 。 
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加 快 分 类 速度 的 其 他 技术 包括 使 用 部 分 距离 计算 和 编辑 存储 的 元 组 。 部 分 距离 (partial 
distance) 方法 基于 个 属性 的 子 集 计 算 距 离 。 如 果 该 距离 超过 阐 值 ， 则 停止 给 定 存储 元 组 
的 进一步 计算 ,该 过 程 转向 下 一 个 存储 元 组 。 编 辑 (editing) 方法 可 以 删除 被 证 明 是 “无 用 
的 ”元 组 。 该 方法 也 称 剪 枝 或 精简 ， 因 为 它 减 少 了 存储 元 组 的 总 数 。 


9. 5.2 基于 案例 的 推理 


基于 案例 的 推理 (Case-Based Reasoning, CBR) 分 类 法 使 用 一 个 存放 问题 解 的 数据 库 来 
求解 新 问题 。 不 像 最 近邻 分 类 法 把 训练 元 组 作为 欧 氏 空间 的 点 存储 ，CBR 把 问题 解决 方案 
的 元 组 或 “案例 ”作为 复杂 的 符号 描述 存储 。CBR 的 商务 应 用 包括 顾客 服务 台 问 题 求解 ， 
其 中 案例 描述 关于 产品 的 问题 诊断 。CBR 还 被 用 在 诸如 工程 和 法 律 领域 ， 其 中 案例 分 别 是 
技术 设计 和 法 律 裁决 。 医 学 教育 是 CBR 的 另 一 个 应 用 领域 ， 其 中 患者 病史 和 治疗 方案 用 来 
帮助 诊断 和 治疗 新 的 患者 。 

当 给 定 一 个 待 分 类 的 新 案例 时 ， 基 于 案例 的 推理 首先 检查 是 否 存 在 一 个 同样 的 训练 案 
例 。 如 果 找 到 一 个 ， 则 返回 附 在 该 案例 上 的 解 。 如 果 找 不 到 同样 的 案例 ， 则 基于 案例 的 推理 
搜索 具有 类 似 于 新 案例 成 分 的 训练 案例 。 从 概念 上 讲 ， 这 些 训 练 案例 可 以 视 为 新 案例 的 近 
邻 。 如 果 案 例 用 图 表示 ， 则 这 涉及 搜索 类 似 于 新 案例 的 子 图 。 基 于 案例 的 推理 试图 组 合 近邻 
训练 案例 的 解 ， 为 新 案例 提出 一 个 解决 方案 。 如 果 各 解 之 间 出 现 不 相 容 ， 则 可 能 需要 回 渊 ， 
搜索 其 他 解 。 基 于 案例 的 推理 可 以 使 用 背景 知识 和 问题 求解 策略 ， 以 便 提出 可 行 的 组 合 解 。 

基于 案例 的 推理 存在 的 挑战 包括 找到 一 个 好 的 相似 性 度量 (例如 ， 为 了 匹配 子 图 ) 和 
组 合 解 的 合适 方法 。 其 他 挑战 包括 ， 为 索引 训练 案例 选择 显著 的 特征 和 开发 有 效 的 索引 技 
术 。 准 确 性 和 有 效 性 之 间 的 折 中 随 着 存储 的 案例 数量 增 大 而 演变 。 随 着 案例 数 增加 ， 基 于 案 
例 的 推理 变 得 更 智能 。 然 而 ， 到 达 某 一 点 之 后 ， 系 统 的 有 效 性 将 随 着 搜索 和 处 理 相关 案例 所 
需要 的 时 间 的 增加 而 受 损 。 与 最 近邻 分 类 一 样 ， 一 种 解决 方案 是 编辑 训练 数据 库 。 为 了 提高 
性 能 ， 可 以 丢弃 元 佘 的 或 未 被 证 明 有 用 的 案例 。 然 而 ， 这 些 决策 并 非 轮廓 鲜明 的 ， 并 且 它 们 
的 自动 处 理 仍然 是 一 个 活跃 的 研究 领域 。 


9.6 其 他 分 类 方法 

本 节 ， 我 们 简要 介绍 其 他 一 些 分 类 方法 ， 包括 遗传 算法 (9.6.1 节 )、 粗 糙 集 方法 
(9.6.2 75) 和 模糊 集 方法 (9.6.3 节 ) 。 一 般 而 言 ， 与 本 书 前 面 介绍 的 方法 相 比 ， 这 些 方法 
不 常 在 商品 化 数据 挖掘 系统 中 使 用 。 然 而 ， 这 些 方法 在 某 些 应 用 中 确实 表现 出 了 它们 的 优 
点 ， 因 此 值得 在 此 介绍 。 


9.6.1 遗传 算法 

遗传 算法 (genetic algorithm) 试图 利用 自然 进化 的 思想 。 一 般 而 言 ， 遗 传 学习 开 始 如 
T: 创建 一 个 由 随机 产生 的 规则 组 成 的 初始 群体 。 每 个 规则 可 以 用 一 个 二 进位 串 表 示 。 作 为 
一 个 简单 的 例子 ， 假 设 给 定 的 训练 集 样本 用 两 个 布尔 属性 4, 和 4, 描述 ， 并 且 有 两 个 类 Ci 
FI Czo SLY “IFA, AND NOTA, THENC,” 可 以 用 二 进位 串 “100” 编 码 ， 其 中 最 左边 的 两 
个 二 进位 分 别 代表 属性 A, 和 4,， 而 最 右边 的 二 进位 代表 类 。 类 似 地 ， 规 则 “I NOTA, 
AND NOTA, THENC,” 可 以 用 “001” 编 码 。 如 果 一 个 属性 具有 (Xk>2) 个 值 ， 则 可 以 用 
个 二 进位 对 该 属性 的 值 编码 。 类 可 以 用 类 似 的 方式 编码 。 

根据 适 者 生存 的 原则 ， 形 成 新 的 群体 ， 它 由 当前 群体 中 最 适合 的 规则 以 及 这 些 规则 的 后 
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代 组 成 。 通 常 ， 规 则 的 拟 合 度 (fitness) 用 它 在 训练 样本 集 上 的 分 类 准确 率 评估 。 

后 代 通过 使 用 诸如 交叉 和 变异 等 遗传 操作 来 创建 。 在 交叉 操作 中 ， 来 自 规则 对 的 子 串 交 
换 ， 形 成 新 的 规则 对 。 在 变异 操作 中 ， 规 则 串 中 随机 选择 的 位 被 反 转 。 

继续 基于 先前 的 规则 群体 产生 新 的 规则 群体 的 过 程 ， 直 到 群体 P“ 进 化 ”，P 中 的 每 个 
规则 都 满足 预先 指定 的 拟 合 度 阐 值 。 

遗传 算法 易于 并 行 ， 并 且 业 已 用 于 分 类 和 其 他 优化 问题 。 在 数据 挖掘 中 ， 它 们 可 能 用 于 
评估 其 他 算法 的 拟 合 度 。 


9.6.2 ”粗糙 集 方法 


粗糙 集 理论 可 以 用 于 分 类 ， 发 现 不 准确 数据 或 噪声 数据 内 的 结构 联系 。 它 用 于 离散 值 属 
性 。 因 此 ， 连 续 值 属性 必须 在 使 用 前 离散 化 。 

粗糙 集 理论 基于 给 定 训练 数据 内 部 的 等 价 类 (equivalence class) 的 建立 。 形 成 一 个 等 价 
类 的 所 有 数据 元 组 是 不 加 区 分 的 ; 也 就 是 说 ， 对 于 描述 数据 的 属性 ， 这 些 样本 是 等 价 的 。 给 
定 现实 世界 数据 ， 通 常 有 些 类 不 能 被 可 用 的 属性 区 分 。 粗 糙 集 可 以 用 来 近似 地 或 “粗略 地 ” 
定义 这 些 类 。 给 定 类 C 的 粗糙 集 定义 用 两 个 集合 来 近似 : C 的 下 近似 (lower approximation) 
和 C 的 上 近似 (upper approximation) 。C 的 下 近似 由 一 些 这 样 的 数据 元 组 组 成 ， 根 据 其 属性 
的 知识 ， 它 们 毫 无 疑问 属于 C。C 的 上 近似 由 所 有 这 样 的 元 组 组 成 ， 根 据 其 属性 的 知识 ， 它 
们 不 可 能 被 认为 不 属于 C。 类 C 的 下 近似 和 上 近似 如 图 9. 14 所 示 ， 其 中 每 个 矩形 区 域 代表 
一 个 等 价 类 。 可 以 对 每 个 类 产生 决策 规则 。 通 常 ， 使 用 决策 表 表 示 这 些 规 则 。 
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图 9.14 类 C 的 元 组 集 (使 用 C 的 上 、 下 近似 集 ) 的 粗糙 集 近 似 。 和 矩形 区 域 表 示 等 价 类 


粗糙 集 也 可 以 用 于 属性 子 集 选 择 (或 特征 归 约 ， 可 以 识别 和 删除 无 助 于 给 定 训练 数据 
分 类 的 属性 ) 和 相关 分 析 〈 根 据 分 类 任务 评估 每 个 属性 的 贡献 或 显著 性 ) 。 找 出 可 以 描述 给 
定数 据 集中 所 有 概念 的 最 小 属性 子 集 〈 归 约 集 ) 问题 是 NP- 困 难 的 。 然 而 ， 业 已 提出 了 一 些 
降低 计算 强度 的 算法 。 例 如 ， 有 一 种 方法 使 用 识别 矩阵 (discernibility matrix) 存放 每 对 数 
据 元 组 属性 值 之 差 。 不 是 在 整个 训练 集 上 搜索 ， 而 是 搜索 和 矩阵， 检测 元 余 属 性 。 


9.6.3 模糊 集 方法 


基于 规则 的 分 类 系统 有 一 个 缺点 : 对 于 连续 属性 ， 它 们 有 陡峭 的 截断 。 例 如 ， 考 虑 下 面 
关于 顾客 信用 卡 申请 审批 的 规则 。 该 规则 本 质 上 是 说 : 工作 两 年 或 多 年 ， 并 且 具 有 和 较 高 收入 
( 即 至 少 50 000 美元 ) 的 顾客 申请 将 被 批准 。 

IF (year_employed > 2)AND( income = 50000) THEN credit = approved (9.24) 
根据 规则 (9. 24) ， 一 个 至 少 工作 两 年 的 顾客 将 得 到 信用 卡 ， 如 果 他 的 收入 是 50 000 美元 ; 但 
是 ， 如 果 他 的 收入 是 49 000 美元 ， 则 他 将 得 不 到 信用 卡 。 这 种 苛刻 的 阐 值 看 起 来 可 能 不 公平 。 
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换 一 种 方式 ， 我 们 可 以 将 收入 离散 化 成 类 别 ， 如 | low_income, medium_income, high_ 
income} ， 然 后 使 用 模糊 逻辑 ， 人 允许 为 每 个 类 定义 “模糊 ” 立 值 或 边界 〈 见 图 9. 15 ) 。 模 糊 
逻辑 使 用 0. 0 和 1.0 之 间 的 真 值 表示 一 个 特定 的 值 是 一 个 给 定 类 成 员 的 隶属 程度 ， 而 不 是 用 
类 之 间 的 精确 截断 。 然 后 ， 每 个 类 别 表 示 一 个 模糊 集 。 因 而 ， 使 用 模糊 逻辑 ， 我 们 可 以 表达 
这 样 的 概念 : 在 某 种 程度 上 ，49 000 美元 的 收入 是 高 的 ， 尽 管 没 有 50 000 美元 的 收入 高 。 通 
常 ， 模 糊 逻辑 系统 提供 图 形 工具 帮助 用 户 把 属性 值 转换 成 模糊 真 值 。 


模糊 成 员 关 系 
© 


0 > 
0 IOK 20K 30K 40K 50K 60K 70K 
income 


图 9.15 income 的 模糊 真 值 ， 表 示 income 值 关 于 类 别 {10w，medium，highi 的 隶属 度 。 
每 个 类 别 表示 一 个 模糊 集 。 注 意 ， 给 定 的 income 值 x 可 能 隶属 于 多 个 模糊 集 。 
x 在 每 个 模糊 集 的 隶属 值 的 总 和 不 必 为 1 
模糊 集 理论 也 称 可 能 性 理论 (possibility theory) 。 它 是 Lotfi Zadeh 于 1965 年 提出 的 ， 作 
为 传统 的 二 值 逻辑 和 概率 论 的 一 种 替代 。 它 允许 我 们 处 理 高 层 抽象 ， 并 且 提 供 了 -一 种 处 
理 数据 的 不 精确 测量 的 手段 。 最 重要 的 是 ， 模 糊 集 理论 允许 我 们 处 理 模糊 或 不 精确 的 事 
实 。 例 如 ， 高 收入 集 的 成 员 是 不 精确 的 〈 例 如 ， 如 果 收 入 50 000 美元 是 高 收入 ， 则 收入 
49 000 美元 或 48 000 美元 如 何 ?) 。 不 像 传统 的 “明确 的 ”集合 ， 元 素 或 者 属于 集合 8 或 
者 属于 它 的 补 ， 在 模糊 集合 论 中 ， 元 素 可 以 属于 多 个 模糊 集 。 例 如 ，ipcome 值 49 000 美 
元 属于 模糊 集 medium 和 high， 但 具有 不 同 的 隶属 度 。 使 用 模糊 集 的 记号 和 图 9. 15 ， 这 可 
以 表示 为 





Mnediun_income ( $49 000) = 0.15 而 mu income $49 000) = 0.96 
其 中 m 是 隶属 函数 ， 分 别 在 模糊 集 medium_income 和 high_income 上 计算 。 在 模糊 集 理论 中 ， 
给 定 元 素 *〈 例 如 49 000 美元 ) 的 隶属 值 之 和 不 必 等 于 1。 这 与 传统 的 概率 论 不 同 。 传 统 的 
概率 论 受 总 和 公理 的 约束 。 
对 于 进行 基于 规则 的 分 类 的 数据 挖掘 系统 来 说 ， 模 糊 集 理 论 是 有 用 的 。 它 提供 了 结合 模 
糊 度量 的 操作 。 假 设 除 了 income 的 模糊 集 之 外 ， 我 们 还 为 属性 years_employed 定义 模糊 集 
junior_employee 和 senior_employee。 假 设 有 一 个 规则 ， 对 给 定 的 雇员 x 检测 规则 前 件 CIF 部 
分 ) high_income 和 senior_employee。 如 果 这 两 个 模糊 度量 用 AND 连接 在 一 起 ， 则 取 它 们 的 
最 小 度量 为 该 规则 的 度量 。 换 言 之 ， 
ML high_income AND senior_employee) (x) = min( Mrigh income (X ) sM senior employee ( % ) ) 
这 类 似 于 说 : 一 条 链 与 它 的 最 弱 的 链接 一 样 结实 。 如 果 两 个 度量 用 OR 连接 ， 则 取 它 们 的 最 
大 度量 作为 规则 的 度量 。 换 言 之 ， 
IN (high income OR senior_employee) (x) = max ( high income (x) sM senior employee ( % ) ) 
直观 地 讲 ， 这 好 像 是 说 绳索 与 它 的 最 结实 的 绳 股 一 样 结实 。 
给 定 一 个 待 分 类 的 元 组 ， 可 以 使 用 多 个 模糊 规则 。 每 个 可 用 的 规则 为 类 的 隶属 贡献 一 
票 。 通 常 ， 对 每 个 预测 分 类 的 真 值 进行 求 和 ， 并 组 合 这 些 和 。 有 一 些 过 程 ， 将 模糊 输出 结果 
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转换 成 系统 返回 的 非 模 糊 或 明确 的 值 。 
模糊 逻辑 系统 已 用 于 许多 分 类 领域 ， 包 括 市 场 调查 、 财 经 、 卫 生 保健 和 环境 工程 。 


9.7 关于 分 类 的 其 他 问题 


我 们 研究 的 大 部 分 分 类 算法 都 处 理 多 类 问题 ， 但 是 某 些 算法 ， 如 支持 向 量 机 ， 假 定数 据 
中 只 有 两 个 类 。 当 存在 的 类 多 于 两 个 时 ， 如 何 进行 调整 ? 这 一 问题 将 在 9.7. 1 节 讨论 多 类 分 
类 时 处 理 。 

如 果 我 们 想 对 数据 建立 一 个 分 类 器 ， 但 是 只 有 一 些 数据 有 类 标号 ， 而 大 部 分 没有 ， 我 们 
怎么 做 ? 文档 分 类 、 语 音 识别 和 信息 提取 只 不 过 是 这 种 应 用 的 几 个 例子 ， 然 而 ， 无 标号 的 数 
据 大 量 存在 。 例 如 ， 考 虑 文档 分 类 。 假 设 我 们 想 建立 一 个 模型 ， 对 诸如 文章 和 Web 页 面 这 
样 的 文本 文档 进行 自动 分 类 。 特 殊 地 ， 我 们 希望 该 模型 识别 曲棍球 文档 和 足球 文档 。 我 们 有 
大 量 文档 可 用 ， 但 文档 没有 类 标号 。 回 想 一 下 ， 监 督学 习 需 要 一 个 训练 集 ， 即 一 个 有 类 标记 
的 数据 集 。 让 人 来 审查 每 个 文档 并 赋予 其 一 个 类 标号 〈 以便 形 成 串 练 集 ) 是 费时 而 且 代价 
高 昂 的 。 

语音 识别 要 求 训练 有 素 的 语言 学 家 对 讲话 的 语音 准确 标记 。 据 报道 ，1 分 钟 讲话 需要 10 
分 钟 标记 ， 而 加 注音 素 (声音 的 基本 单位 ) 可 能 需要 400 倍 的 时 间 。 信 息 提 取 系统 使 用 具 
有 详细 注解 标记 的 文档 训练 。 这 些 通过 专家 对 文本 中 的 项 或 有 趣 的 关系 (如 公司 或 个 人 的 
名 字 ) 加 标记 得 到 。 对 于 某 些 领域 而 言 ， 可 能 需要 高 级 专门 知识 和 技能 ， 如 生物 医学 信息 
提取 涉及 的 基因 和 疾病 知识 。 显 然 ， 人 工地 指定 类 标号 来 准备 训练 集 可 能 极端 郧 贵 、 耗 时 和 
乏味 。 

我 们 将 研究 3 种 分 类 方法 ， 它 们 非常 适合 具有 大 量 无 标号 数据 的 情况 。9.7. 2 节 介绍 半 
监督 分 类 ， 它 使 用 有 标号 和 无 标号 的 数据 构建 分 类 器 。9.7. 3 节 介绍 主动 学 习 ， 该 学 习 算法 
仔细 选取 少量 无 标号 的 元 组 ， 并 请 求人 工 给 出 这 些 元 组 的 类 标号 。9.7.4 节 介绍 迁移 学 习 ， 
其 目标 是 从 一 个 或 多 个 源 任 务 〈 例 如 ， 对 照相 机 评论 分 类 ) 提取 知识 ， 并 把 这 一 知识 用 于 
目标 任务 〈 例 如 ，TV 评论 ) 。 这 些 策略 都 能 减少 对 大 量 数据 进行 注解 的 需求 ， 节 省 费用 和 
时 间 。 


9.7.1 多 类 分 类 


某 些 分 类 算法 ， 如 支持 向 量 机 ， 是 为 二 元 分 类 设计 的 。 如 何 扩充 这 些 算 法 ， 人 允许 多 类 分 
类 (〈 即 涉及 两 个 以 上 类 的 分 类 )? 

一 种 简单 的 方法 是 一 对 所 有 (One-Versus-All, OVA), E m 个 类 ,我们 训练 m 个 二 
元 分 类 器 ， 每 类 一 个 。 分 类 器 / 使 用 类 j 的 元 组 为 正 类 ， 其 余 元 组 为 负 类 ， 进 行 训 练 。 通 过 
学 习 ， 它 对 类 j 返回 一 个 正 值 ， 而 对 其 他 类 返回 一 个 负 值 。 为 了 对 未 知 元 组 外 分类， 分 类 器 
集 作 为 一 个 组 合 分 类 器 投票 。 例 如 ， 如 果 分 类 器 7 预测 天 为 正 类 ， 则 类 /得 到 一 票 。 如 果 它 
预测 X AAA, MERI 之 外 的 每 个 类 都 得 到 一 票 。 得 票 最 多 的 类 被 指派 给 于。 

所 有 对 所 有 (All- Versus- All, AVA) 是 另 一 种 方法 ， 它 对 每 一 对 类 学 习 一 个 分 类 器 。 
给 定 m 个 类 ， 我们 构建 m(m -1)/2 个 二 元 分 类 器 。 每 个 分 类 器 都 使 用 它 应 该 区 分 的 两 个 类 
的 元 组 来 训练 。 为 了 对 未 知 元 组 分 类 ， 所 有 的 分 类 器 投票 表决 。 该 元 组 被 指派 到 得 票 最 多 的 
类 。“ 所 有 对 所 有 ”往往 优 于 “一 对 所 有 "”。 

以 上 方案 存在 的 问题 是 ， 二 元 分 类 器 对 错误 敏感 。 如 果 一 个 分 类 器 出 错 ， 则 它 可 能 影响 
投票 结果 。 
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可 以 使 用 纠 错 码 提高 多 类 分 类 的 准确 性 ， 不 只 是 对 以 上 情况 ， 也 适用 于 一 般 的 分 类 。 纠 
错 码 最 初 是 为 通信 任务 的 数据 传输 纠 错 设计 的 。 对 于 这 种 任务 ， 使 用 纠 错 码 将 元 余 添 加 到 被 
传输 的 数据 中 ， 使 得 即使 因 信道 噪声 而 出 现 错误 ， 也 能 在 另 一 端正 确 地 接收 到 数据 。 对 于 多 
类 分 类 ， 即 使 个 体 二 元 分 类 器 对 给 定 的 未 知 元 组 做 出 了 错误 预测 ， 我 们 仍然 可 以 正确 地 标记 
该 元 组 。 

纠 错 码 被 赋予 每 个 类 ， 其 中 每 个 码 字 都 是 一 个 位 向 量 。 图 9. 16 显示 了 一 个 例子 ，7 
位 码 字 被 赋予 类 C, Cy. Cy 和 C,。 我 们 对 每 个 位 的 位 置 训 练 一 个 分 类 器 。 因 此 ， 在 我 们 
的 例子 中 ， 我 们 训练 7 个 分 类 器 。 如 果 一 个 分 类 器 出 错 ， 由 于 有 附加 的 位 而 获得 的 宛 余 ， 
我 们 仍然 有 较 好 的 机 会 正确 地 预测 给 定 的 未 知 元 组 的 类 。 该 技术 使 用 一 种 称 做 海 明 距 离 
(Hamming distance) 的 距离 度量 ,万 一 出 错 用 来 猜测 “最 接近 的 ”类 。 该 技术 在 例 9.3 
中 解释 。 

例 9.3 使 用 纠 错 码 的 多 类 分 类 。 考 虑 图 9.16 中 与 类 Ci ~ -x nea 
C, 相关 联 的 7 位 纠 错 码 。 假 设 给 定 一 个 待 分 类 的 未 知 元 组 ，7 个 CMH 
训练 过 的 二 元 分 类 器 共同 输出 码 字 0001010, 5 4 个 类 的 码 字 都 eo goon 
不 匹配 。 显 然 出 现 了 分 类 错误 ， 但 是 我 们 能 够 推算 出 最 可 能 的 类 Cot0l010 
应 该 是 哪个 吗 ? 我 们 可 以 尝试 使 用 海 明 距离 。 两 个 码 字 的 海 明 距 。。 |。 ,4 个 类 的 多 类 
离 是 它们 的 不 相同 的 位 数 。 输 出 码 字 与 C 的 海 明 距离 为 5， 因 分 类 问题 的 纠 错 码 
为 它们 有 5 位 ( 即 第 1、2、3、5、7 位 ) 不 同 。 类 似 地 ， 输 出 
WFS C, C 和 C4 的 海 明 距 离 分 别 为 3、3 和 1。 注 意 ， 输 出 码 字 与 C, 的 码 字 最 接近 。 也 
就 是 说 ， 输 出 码 字 与 类 码 字 之 间 的 最 小 海 明 距 离 是 与 C, 的 距离 。 因 此 ， 我 们 指派 C, 为 给 定 
元 组 的 类 标号 。 m 

纠 错 码 可 以 对 (h-1)/h 1 位 错误 纠 错 ， 其 中 hh 是 两 个 码 字 之 间 的 海 明 距 离 。 如 果 我 
们 对 每 类 使 用 1 位 ， 如 对 类 C ~ C, 使 用 4 位 码 字 ， 则 这 等 价 于 一 对 所 有 方法 ， 并 且 这 些 码 
不 足以 自 纠 错 。( 作 为 习题 , 试 证 之 。) 在 为 多 类 分 类 选择 纠 错 码 时 ， 码 字 之 间 必须 是 行 分 
离 和 列 分 离 的 。 其 间距 离 越 大 ， 错 误 越 可 能 被 纠正 。 








9.7.2 半 监 督 分 类 
半 监督 分 类 (semi- supervised classification) 使 用 有 类 标号 的 数据 和 无 类 标号 的 数据 构建 
分 类 器 。 te X,={(x,, y), tty OX, yi) 4 是 有 标号 的 数据 的 集合 ， X,= {reas or) Ky | 


是 无 标号 的 数据 的 集合 。 这 里 ， 我 们 介绍 这 种 学 习 方 法 的 几 个 例子 。 

自我 训练 (self-training) 是 半 监 督 分 类 的 最 简单 形式 。 它 首先 使 用 有 标号 的 数据 建立 一 
个 分 类 器 。 然 后 ， 试 用 该 分 类 融 对 无 标号 的 数据 加 标号 。 将 类 标号 预测 最 有 把 握 的 元 组 添加 
到 有 标号 的 数据 的 集合 中 ， 并 重复 这 一 过 程 (ME 9. 17) 。 尽 管 这 种 方法 容易 理解 ， 但 其 缺 
点 是 可 能 强化 错误 。 

协同 训练 (co training) 是 半 监 督 分 类 的 另 一 种 形式 ， 其 中 两 个 或 多 个 分 类 器 互 教 互 学 。 
理想 地 ， 每 个 学 习 器 都 对 每 个 元 组 使 用 一 个 不 同 的、 理想 的 独立 特征 集 。 例 如 ， 考 虑 网 页 数 
据 ， 其 中 涉及 网 页 图 像 的 数据 可 以 作为 一 个 特征 集 ， 而 涉及 对 应 文本 的 属性 构成 相同 数据 的 
另 一 个 特征 集 。 每 个 特征 集 都 应 该 足以 训练 一 个 好 分 类 器 。 假 设 我 们 把 特征 集 划 分 成 两 个 集 
Ro 并且 训练 了 两 个 分 类 器 和 f;， 其 中 每 个 分 类 器 都 在 不 同 的 特征 集 上 训练 。 使 用 有 和 所 
对 无 标号 的 数据 X, 预测 类 标号 。 然 后 ， 每 个 分 类 器 都 教导 另 一 个 : 从 得 到 的 预测 最 大 把 
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握 的 元 组 (连同 它 的 标号 ) BRE, HAMS NBER. AU, MA 得 到 的 预测 把 
握 最 大 的 元 组 被 添加 到 .fi 的 有 标号 的 数据 集 上 。 这 种 方法 总 结 如 图 9. 17 所 示 。 与 自我 训练 
相 比 ， 协 同 训练 对 错误 不 太 敏 感 。 一 个 困难 是 ， 使 用 该 方法 的 假定 可 能 不 成 立 ， 即 也 许 不 可 
能 把 特征 划分 成 互 斥 的 、 类 条 件 独立 的 集合 。 


自我 训练 

CL) 选择 一 种 学 习 方 法 ， 如 贝 叶 斯 分 类 。 使 用 有 类 标号 的 数据 X% 构 建 一 个 分 类 器 。 

(2) 使 用 该 分 类 器 对 无 类 标号 的 数据 X, 加 标号 。 

(3) 选择 具有 最 高 置信 和 度 “ 最 有 把 握 的 预测 ) 的 元 组 xEX.， 将 它 和 它 的 预测 标号 添加 到 %。 

O 重复 以 上 过 程 ( 即 使 用 扩展 的 有 标号 的 数据 重新 训练 分 类 器 〉。 

协同 训练 

CD 对 于 有 类 标号 的 数据 X， 定 义 两 个 不 重 全 的 特征 集 。 

(2) 在 有 类 标号 的 数据 上， 训练 两 个 分 类 器 # 和 /;， 其 中 ,使 用 一 个 特征 集训 练 ， 而 有 使 用 男 一 个 。 
(3) Pal AUT, BA 


(4) RATE Gof, (x) ) 添加 到 使 用 的 有 标号 的 数据 集 上 ， 其 中 xEX,。 类 似 地 , 将 最 有 把 握 的 Gf, ORM 
到 /使 用 的 有 标号 的 数据 集 上 。 


(5) 重复 以 上 过 程 。 














图 9.17 半 监 督 分 类 的 自我 训练 和 协同 训练 方法 


还 存在 半 监 督学 习 的 其 他 方法 。 例 如 ， 可 以 对 特征 和 类 标号 的 联合 概率 分 布 建 模 。 对 于 
无 标号 数据 ， 标 号 可 以 按 缺 失 数 据 处 理 。EM 算法 (第 11 BE) 可 以 用 来 最 大 化 模型 似 然 。 
还 有 人 提出 使 用 支持 向 量 机 的 方法 。 


9.7.3 主动 学 习 


主动 学 习 (active learning) 是 一 种 迭代 的 监督 学 习 ， 适 合 数据 丰富 但 类 标号 稀缺 或 
获取 昂贵 的 情况 。 学 习 算 法 是 主动 的 ， 因 为 它 可 能 有 目的 地 向 用 户 (例如 ， 智 者 ) 询 
问 类 标号 。 通 常 ， 这 种 方法 用 于 学 习 概 念 的 元 组 数 远 少 于 典型 的 监督 学 习 所 需要 的 
数量 。 

“主动 学 习 如 何 克 服 这 种 标号 瓶颈 ?” 为 了 控制 开销 ， 主 动 学 习 程 序 的 目标 是 使 用 尽 可 
能 少 的 有 标号 的 实例 来 获得 高 准确 率 。 设 D 是 所 考虑 的 全 部 数据 。 存 在 一 些 在 D 上 主动 学 
习 的 策略 。 图 9. 18 图 示 了 一 种 基于 池 的 《pool-based) 主动 学 习 方 法 。 假 设 D 的 一 个 小 的 子 
集 有 类 标号 。 该 集合 记 作 LK。U 是 D 中 无 类 标号 的 数据 ， 也 称 它 为 无 标号 数据 池 。 主 动 学 习 
程序 以 民 为 初始 训练 集 开 始 学 习 。 然 后 ， 它 使 用 一 个 查询 函数 ， 从 避 中 精心 选择 一 个 或 多 
个 样本 ， 并 向 一 位 智者 《如 注释 者 ) 询问 它们 的 类 标号 。 新 标记 的 样本 被 添加 到 工 中 ,之 
后 学 习 程序 按 标准 的 监督 方法 使 用 它们 ， 重 复 该 过 程 。 主 动 学 习 的 日 标 是 使 用 尽 可 能 少 的 标 
记 元 组 获得 高 准确 率 。 通 常 ， 主 动 学 习 算 法 用 一 个 学 习 曲 线 评估 ， 把 准确 率 作为 被 询问 的 实 
倒数 的 函数 。 

主动 学 习 的 大 部 分 研究 都 集中 在 如 何 选择 被 询问 的 元 组 上 。 已 经 提出 了 一 些 框架 。 不 确 
定 抽样 是 最 常见 的 ， 其 中 主动 学 习 程序 选择 最 无 把 握 如 何 加 标号 的 元 组 进行 询问 。 其 他 策略 
旨 在 缩小 解释 空间 (version space), ， 即 与 观察 到 的 训练 元 组 一 致 的 所 有 假设 的 子 集 。 另 外 ， 
我 们 也 可 以 按照 决策 论 方法 ， 估 计 期 望 误差 的 减少 。 如 通过 降低 UV 上 的 期 望 粹 ， 选 择 使 错 
误 预 测 总 数 降低 最 大 的 元 组 。 后 一 种 方法 计算 量 较 大 。 
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图 9.18 基于 池 的 主动 学 习 周 期 。 取 自 Settles[ Set10] ， 计 算 机 科学 技术 
报告 1648 ， 威 斯 康 星 - 麦迪 逊 大 学 
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9.7.4 迁移 学 习 

假设 AllElectronics 收集 了 顾客 对 一 种 产品 (如 一 种 品牌 的 照相 机 )〉 的 大 量 评论 。 分 类 
任务 是 自动 地 将 这 些 评论 标记 为 肯定 或 否定 。 这 种 任务 称 做 意见 分 类 (sentiment classifica- 
tion)。 我 们 可 以 考察 每 个 评论 ， 通 过 加 上 类 标号 positive 或 negative 来 注释 它们 。 然 后 ， 可 以 
使 用 这 些 加 标号 的 评论 来 训练 和 检验 一 个 分 类 器 ， 用 来 把 该 产品 的 未 来 评论 标记 为 positive 
或 negative。 注 释 评 论 数 据 的 人 工 可 能 是 昂贵 的 和 耗 时 的 。 

假设 AllElectronics 还 收集 了 关于 其 他 产品 (如 TV) 的 顾客 评论 。 对 于 不 同类 型 的 产 
品 ， 评 论 数据 的 分 布 可 能 差别 很 大 。 我 们 不 能 假定 TV 的 评论 数据 与 照相 机 的 评论 数据 具有 
相同 的 分 布 ; 因此 ， 我 们 必须 为 TV 的 评论 数据 另外 建立 一 个 分 类 模型 。 考 察 并 标记 TV 评 
论 数据 以 便 形 成 训练 集 需要 付出 很 大 的 努力 。 事 实 上 ， 对 于 每 种 产品 ， 为 了 训练 一 个 评论 分 
类 模型 ， 我 们 都 需要 对 大 量 数据 加 标号 。 如 果 能 够 改编 一 个 已 有 的 分 类 模型 (例如 ， 为 照 
相机 构建 的 模型 ) ， 帮 助 学 习 一 个 用 于 TV 的 分 类 模型 ， 则 是 一 件 好 事 。 这 种 知识 迁移 将 降 
低 对 大 量 数据 注释 的 需求 ， 节 省 费用 和 时 间 。 这 正 是 迁移 学 习 的 本 质 。 

迁移 学 习 (transfer learning) 旨 在 从 一 个 或 多 个 源 任 务 提 取 知 识 ， 并 将 这 种 知识 用 于 目 
标 任务 。 在 我 们 的 例子 中 ， 源 任务 是 照相 机 评论 分 类 ， 目 标 任务 是 TV 评论 分 类 。 图 9. 19 
显示 了 传统 的 学 习 方法 与 迁移 学 习 的 比较 。 传 统 的 学 习 方 法 对 每 个 新 的 分 类 任务 ， 基 于 可 用 
有 类 标号 的 训练 和 检验 数据 ， 建 立 一 个 新 的 分 类 器 。 迁 移 学 习 算法 在 为 新 (A) 任务 构 
建 分 类 器 时 ， 使 用 源 任 务 的 知识 。 结 果 分 类 器 的 构建 需要 较 少 的 训练 数据 和 较 少 的 训练 时 
间 。 传 统 的 学 习 算 法 假定 训练 和 检验 数据 都 从 相同 的 分 布 和 相同 的 特征 空间 抽取 。 因 此 ， 如 
果 分 布 改 变 ， 则 这 些 方法 需要 从 头 重建 模型 。 


源 任务 目标 任务 
(Hy 
© © 
© 


y y y y y 
(raas | suan (xazm 】 (sn | 
a) 传统 的 学 习 b) 迁移 学 习 


图 9.19 迁移 学 习 与 传统 学 习 : a) 传统 的 学 习 方 法 对 每 个 分 类 任务 从 头 开 始 建立 一 个 新 的 分 类 器 ; b) 迁移 
学 习 运 用 源 分 类 器 的 知识 简化 新 的 目标 任务 的 分 类 器 的 构建 。 取 自 Pan 和 Yang[ PY10] 
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迁移 学 习 人 允许 分 布 、 任 务 ， 甚 至 用 于 训练 和 检验 的 数据 域 不 同 。 迁 移 学 习 类 似 于 人 们 所 
用 的 方法 ， 即 运用 一 项 任务 的 知识 使 得 另 一 项 任务 的 学 习 更 容易 。 例 如 ， 如 果 我 们 知道 如 何 
演奏 竖 笛 ， 则 我 们 可 以 运用 我 们 的 识 谱 和 音乐 知识 简化 学 习 弹 钢琴 的 任务 。 类 似 地 ， 懂 西 班 
牙 语 使 得 学 习 意 大 利 语 更 容易 。 

对 于 一 些 常见 的 应 用 ， 数 据 过 时 或 分 布 改 变 ， 迁 移 学 习 是 有 用 的 。 这 里 ， 我 们 再 给 两 个 
例子 。 考 虑 Web 文档 分 类 ; 我 们 可 能 需要 训练 一 个 分 类 器 ， 例 如 ， 根 据 预先 定义 的 类 别 ， 
为 取 自 各 种 不 同 新 闻 组 的 文章 加 标号 。 用 于 训练 分 类 器 的 Web 数据 可 能 很 容易 变 成 过 时 的 ， 
因为 Web 上 的 主题 变化 频繁 。 迁 移 学 习 的 另 一 个 应 用 领域 是 垃圾 邮件 过 滤 。 我 们 可 以 使 用 
一 个 用 户 群 的 邮件 训练 一 个 分 类 器 ， 把 邮件 标记 为 “垃圾 邮件 ”或 “ 非 垃 圾 邮件 ”。 如 果 新 
的 用 户 出 现 ， 则 他 们 的 邮件 分 布 可 能 不 同 于 原来 的 用 户 群 ， 因 此 需要 改变 学 习 得 到 的 模型 ， 
吸纳 新 的 数据 。 

迁移 学 习 的 方法 有 多 种 ， 最 常见 的 是 基于 实例 的 迁移 学 习 方法 。 这 种 方法 重新 评估 来 自 
源 任务 的 某 些 数据 的 权重 ， 并 使 用 它们 学 习 目 标 任务 。TrAdaBoost (Transfer AdaBoost) 算 
法 是 这 种 方法 的 一 个 典范 。 考 虑 我 们 的 Web 文档 分 类 的 例子 ， 其 中 用 于 训练 分 类 器 的 老 数 
据 ( 源 数据 ) 的 分 布 不 同 于 新 数据 〈 目标 数据 ) 的 分 布 。TrAdaBoost 假定 源 领 域 和 目标 领 
域 数据 都 被 相同 的 属性 集 描述 ( 即 它们 具有 相同 的 “特征 空间 ”) 和 相同 的 类 标号 集 ， 但 是 
两 个 领域 的 数据 分 布 很 不 相同 。 它 扩充 了 8.6.3 节 介 绍 的 AdaBoost 集成 分 类 方法 。TrAda- 
Boost 只 要 求 标记 少量 目标 数据 。TrAdaBoost 不 是 丢弃 所 有 老 的 源 数据 ， 而 是 假定 它们 大 部 
分 在 训练 新 分 类 器 时 可 能 都 是 有 用 的 。 其 基本 思想 是 ， 通 过 自动 调整 赋予 训练 元 组 的 权重 ， 
过 滤 掉 与 新 数据 很 不 相同 的 老 数据 的 影响 。 

回忆 一 下 ， 在 提升 过 程 中 ， 组 合 分 类 器 通过 学 习 一 系列 分 类 器 来 创建 。 开 始 ， 每 个 元 组 
赋予 一 个 权重 。 学 习 分 类 器 M; 之 后 ， 调 整 诸 权 重 ， 使 得 其 后 的 分 类 器 M,,，“ 更 关注 ”被 
M, 错误 分 类 的 元 组 。 对 于 目标 数据 ，TrAdaBoost 使 用 同样 的 策略 。 然 而 ， 如 果 源 数据 元 组 
被 错误 分 类 ， 则 TrAdaBoost 认为 该 元 组 可 能 与 目标 数据 很 不 相同 。 因 此 ， 它 降低 这 种 元 组 的 
权重 ,使 得 它们 对 其 后 的 分 类 器 的 影响 很 小 。 这 样 ， 即 使 新 数据 本 身 不 足以 训练 模型 ， 
TrAdaBoost 也 能 使 用 少量 新 数据 和 大 量 老 数据 ， 学 习 一 个 准确 的 分 类 模型 。 因 此 ， 使 用 这 种 
方法 ，TrAdaBoost 使 得 知识 可 以 从 旧 分 类 器 迁移 到 新 的 。 

迁移 学 习 的 一 个 难题 是 负 转 移 (negative transfer) 。 当 新 分 类 器 的 性 能 比 完全 不 迁移 更 
差 时 就 出 现 负 迁移 。 如 何 避 免 负 迁 移 是 一 个 未 来 研究 的 领域 。 混 杂 迁 移 学 习 (heterogeneous 
transfer learning) 涉及 从 不 同 的 特征 空间 和 多 个 源 领域 迁移 知识 ， 是 未 来 研究 的 另 一 个 重点 。 
迄今 为 止 ， 大 部 分 迁移 学 习 的 研究 都 还 在 小 规模 应 用 上 。 在 大 型 应 用 上 ， 如 在 社会 网 络 分 析 
和 视频 分 类 上 应 用 迁移 学 习 是 一 个 需要 进一步 考察 的 领域 。 


9.8 小 结 


不 像 朴素 贝 叶 斯 分 类 〈 它 假定 类 条 件 独立 性 ) ， 贝 叶 斯 信念 网 络 允 许 在 变量 子 集 之 间 定 义 类 条 件 独立 
性 。 它 提供 了 一 种 因果 关系 的 图 形 模型 ， 在 其 上 进行 学 习 。 训 练 后 的 贝 叶 斯 信念 网 络 可 以 用 来 分 类 。 
后 向 传播 是 一 种 用 于 分 类 的 使 用 梯度 下 降 法 的 神经 网 络 算法 。 它 搜索 一 组 权重 ， 对 数据 建 模 ， 使 得 
数据 元 组 的 网 络 类 预测 和 实际 类 标号 之 间 的 平均 平方 距离 最 小 。 可 以 从 训练 过 的 神经 网 络 提 取 规 
则 ， 帮 助 改 进 学 习 网 络 的 可 解释 性 。 

。 支持 向 量 机 (SVM) 是 一 种 用 于 线性 和 非 线性 数据 的 分 类 算法 。 它 把 源 数据 变换 到 较 高 维 空间 ， 
使 用 称 做 支持 向 量 的 基本 元 组 ， 从 中 发 现 分 离 数据 的 超 平面 。 

频繁 模式 反映 数据 中 属性 - 值 对 (或 项 ) 之 间 的 强 关联 ， 可 以 用 于 基于 频繁 模式 的 分 类 。 方 法 包 
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括 关联 分 类 和 基于 有 区 别 能 力 的 频繁 模式 分 类 。 在 关联 分 类 中 ， 使 用 从 频繁 模式 产生 的 关联 规则 构 
建 分 类 器 。 在 基于 有 区 别 能 力 的 频繁 模式 分 类 中 ， 在 建立 分 类 模型 时 ， 除 考虑 单个 特征 之 外 ， 频 繁 
模式 充当 组 合 特征 。 

决策 树 分 类 、 贝 叶 斯 分 类 、 后 向 传播 分 类 、 支 持 向 量 机 和 基于 频繁 模式 的 分 类 方法 都 是 急切 学 习 方 
法 的 例子 ， 因 为 它们 都 使 用 训练 元 组 构造 一 个 泛 化 模型 ， 从 而 为 新 元 组 的 分 类 做 好 准备 。 这 与 诸如 
最 近邻 分 类 和 基于 案例 的 推理 分 类 等 情 性 学 习 方 法 或 基于 实例 的 方法 相反 。 后 者 将 所 有 训练 元 组 存 
储 在 模式 空间 中 ， 一 直 等 到 检验 元 组 出 现 才 进 行 泛 化 。 因 此 ， 惰 性 学 习 方法 需要 有 效 的 索引 技术 。 
在 遗传 算法 中 ， 规则 总 体 通 过 交叉 和 变异 操作 “进化 ”、 直 到 总 体 中 所 有 的 规则 都 满足 指定 的 阐 
值 。 粗 糙 集 理论 可 以 用 来 近似 地 定义 类 ， 这 些 类 基于 可 用 的 属性 是 不 可 区 分 的 。 模 糊 集 方法 用 隶属 
度 函 数 蔡 换 连 续 值 属性 的 “脆弱 的 ” 阔 值 。 

可 以 调整 二 元 分 类 方法 〈 如 支持 向 量 机 ) ， 处 理 多 类 分 类 。 这 涉及 构造 二 元 分 类 器 的 组 合 分 类 器 。 
可 以 使 用 纠 错 码 提高 组 合 分 类 器 的 准确 率 。 

当 存 在 大 量 无 标号 的 数据 时 ， 半 监督 学 习 是 有 用 的 。 半 监督 学 习 使 用 有 标 导 和 无 标号 数据 建立 分 类 
器 。 半 监督 分 类 的 例子 包括 自我 训练 和 协同 训练 。 

主动 学 习 是 一 种 监督 学 习 ， 它 适合 数据 丰富 、 但 类 标号 稀缺 或 难以 获得 的 情况 。 学 习 算法 可 以 主动 
地 向 用 户 〈 例 如 ,智者 ) 询问 类 标号 。 为 了 保持 低 代 价 ， 主 动 学 习 的 目标 是 使 用 尽 可 能 少 的 有 标 
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号 的 实例 来 获得 高 准确 率 。 437 
迁移 学 习 旨 在 从 一 个 或 多 个 源 任务 提取 知识 ， 并 把 这 些 知识 运用 于 目标 任务 。TrAdaBoost 是 进行 迁 
移 学 习 的 基于 实例 方法 的 一 个 例子 ， 它 对 来 自 源 任 务 的 某 些 元 组 重新 加 权 ， 并 使 用 它们 学 习 有 目标 任 
务 ， 因 此 只 需要 很 少 有 标号 的 目标 任务 元 组 。 
习题 
9.1 下 表 由 取 自 雇员 数据 库 的 训练 数据 组 成 。 数 据 已 泛 化 。 例 如 ，age“31…35” 表 示 年 龄 在 31 ~ 35 岁 之 
间 。 对 于 给 定 的 行 ，count 表示 department, status, age 和 salary 在 该 行 上 具有 给 定 值 的 数据 元 组 数 。 
department Status age salary count 
sales senior 31-35 46K- 50K 30 
sales junior 26---30 26K…30K 40 
sales junior 31...35 ' 31K--35K 40 
systems junior 21---25 46K---50K 20 
systems senior 31---35 66K---70K 5 
systems junior 26…30 46K---50K 3 
systems senior 41-45 66K--:70K 3 
marketing senior 36---40 46K: 50K 10 
marketing junior 31---35 41K---45K 4 
secretary senior 46---50 36K---40K 4 
secretary junior 26---30 26K-:-30K 6 
B status 是 类 标号 属性 。 
(a) 为 给 定 的 数据 设计 一 个 多 层 前 僻 神 经 网 络 。 标 记 输入 层 和 输出 层 节 点 。 
(b) 给 定 训练 实例 (sales，senior，31…35，46K…50K) ,使 用 (a) 中 得 到 的 多 层 前 馈 神 经 网 络 ， 给 
出 后 向 传播 算法 一 次 迭代 后 的 权重 。 指 出 你 使 用 的 初始 权重 和 偏 倚 以 及 学 习 率 。 
支持 向 量 机 (SVM) 是 一 种 具有 高 准确 率 的 分 类 方法 。 然 而 ， 在 使 用 大 型 数据 元 组 集 进 行 训 练 时 ， 
SVM 的 处 理 速 度 很 慢 。 讨 论 如 何 克 服 这 一 困难 ， 并 为 大 型 数据 集 有 效 的 SVM 分 类 开发 一 种 可 伸缩 的 
SVM 算法 。 
比较 和 对 照 关联 分 类 和 基于 有 区 别 能 力 的 频繁 模式 分 类 。 为 什么 基于 频繁 模式 的 分 类 能 够 获得 比 经 典 
的 决策 树 方法 更 高 的 分 类 准确 率 ? 438 


9.4 ERR (MN, RER, MER, WARNA) 相对 于 情 性 分 类 (例如 , 上- 最 近邻 、 基 于 案例 
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的 推理 ) 的 优点 和 缺点 。 
9.5 给 定 最 近邻 数 k 和 描述 每 个 元 组 的 属性 数 n， 写 一 个 上 -最 近邻 分 类 算法 。 
9.6 简要 介绍 使 用 (a) WRR, (b) MER, (c) 模糊 集 的 分 类 过 程 。 
9.7 例 9.3 对 于 4 个 类 的 多 类 分 类 问题 ,给 出 了 一 个 使 用 纠 错 码 的 例子 。 
(a) 假设 对 于 给 定 待 分 类 元 组 , 7 个 训练 后 的 二 元 分 类 器 共同 输出 码 字 0101110， 与 4 个 类 的 码 字 都 
不 匹配 。 使 用 纠 错 码 ， 应 该 把 哪个 类 标号 赋予 该 元 组 ? 
(b) 解释 为 什么 使 用 4 位 向 量 的 码 字 不 足以 纠 错 。 
9.8 在 有 大 量 无 标号 数据 的 情况 下 ， 半 监督 分 类 、 主 动 学 习 和 迁移 学 习 是 有 用 的 。 
(a) 叙述 半 监 督 分 类 、 主 动 学 习 和 迁移 学 习 。 详 细 说 明 这 些 方法 对 于 哪些 应 用 有 用 以 及 其 用 于 分 类 
面临 的 挑战 。 
(b) 研究 并 描述 一 种 不 同 于 自我 训练 和 协同 训练 的 半 监 督 分 类 方法 。 
(c) 研究 并 描述 一 种 不 同 于 基于 池 的 主动 学 习 方 法 。 
(d) 研究 并 描述 一 种 不 同 于 基于 实例 的 迁移 学 习 方 法 。 


9.10 文献 注释 


关于 贝 叶 斯 信念 网 络 的 介绍 ， 见 Darwiche[ Dar10] 和 Heckerman[ Hec96] 。 关 于 概率 网 络 的 全 面 介绍 见 
Pearl[ Pea88 ] Koller 和 Friedman[ KF09 ] 。 给 定 可 观测 的 变量 ， 由 训练 数据 学 习 信 和 念 网 络 结构 的 方案 由 
Cooper 和 Herskovits[ CH92 ] 、Buntine[ Bun94 ] 、Heckerman 、Geiger 和 Chickering[ HGC95 ] 提出 。 在 信念 网 
络 上 推理 的 算法 可 以 在 Russell 和 Norvig[ RN95] ， 以 及 Jensen[ Jen96] 著作 中 找到 。9. 1.2 节 介 绍 的 训练 由 
叶 斯 信念 网 络 的 梯度 下 降 法 在 Russell 、Binder、Koller 和 Kanazawa[ RBKK95] 著作 中 给 出 。 图 9. 1 给 出 的 例 
子 取 自 Russell 等 [ RBKK95 | 。 

学 习 具 有 隐藏 变量 的 信念 网 络 的 可 选 策略 包括 Dempster, Laird 和 Rubin 的 [ DLR77] EM (期 望 最 大 
化 ) 算法 〈Lauritzen[ Lau95 ] ) 和 基于 最 小 描述 长 度 原 则 的 方法 (Lam[ Lam98] ) 。Cooper[ Coo90] 证 明 在 
非 约束 的 信念 网 络 上 推理 的 一 般 问题 是 NP- 困 难 的 。 信 念 网 络 的 局 限 性 ， 如 很 高 的 计算 复杂 度 (Laskey 和 
Mahoney[ LM97 ]) ， 促 使 考察 分 层 的 、 可 复合 的 贝 叶 斯 模型 (Pfeffer、Koller、Milch 和 Takusagawa 
[PKMT99] ， 以 及 Xiang, Olesen 和 Jensen[ XOJOO]) 。 这 些 遵 循 知识 表示 的 面向 对 象 的 方法 。Fishelson 和 
Geiger[ FG02] 提出 了 用 于 遗传 连锁 分 析 的 贝 叶 斯 网 络 。 

感知 器 是 一 种 简单 的 神经 网 络 ， 由 Rosenblatt[ Ros58] 在 1958 年 提出 ， 成 为 机 器 学 习 历 史上 的 早期 里 
程 碑 。 它 的 输入 单元 随机 地 连接 到 线性 阔 值 单 层 输出 单元 。1969 年 ，Minsky 和 Papert[ MP69] 证 明 感知 器 
不 能 学 习 线性 不 可 分 的 概念 。 这 种 局 限 性 和 当时 硬件 的 局 限 性 压制 了 计算 神经 模型 研究 激情 将 近 20 年 。 
1986 Æ, Rumelhart, Hinton 和 Williams[ RHW86] 提出 后 向 传播 算法 后 才 重 新 引起 人 们 的 兴趣 ， 因 为 该 算 
法 可 以 学 习 线性 不 可 分 的 概念 。 

自 那 以 后 ， 已 经 提出 后 向 传播 的 许多 变形 ， 包 括 蔡 换 的 误差 函数 (Hanson 和 Burr[ HB88] ) ， 网 络 拓扑 
的 动态 调整 ( Mézard 和 Nadal[ MN89] 、Fahlman 和 Lebiere[ FL90] 、Le Cun, Denker 和 Solla[ LDS90] ， 以 及 
Harp, Samad 和 Guha[ HSG90] ) ， 以 及 学 习 率 和 动量 参数 的 动态 调整 (Jacobs[ Jac88 ] ) 。 其 他 变形 在 Chau- 
vin 和 Rumelhart[ CR95] 中 讨论 。 神 经 网 络 的 书籍 包括 Rumelhar 和 McClelland [ RM86 ] ，Hecht- Nielsen 
[ HN90] Hertz, Krogh 和 Palmer[ HKP91], Chauvin 和 Rumelhart[ CR95], Bishop[ Bis95 ] , Ripley[ Rip96 ] , 
以 及 Haykin[ Hay99] 。 许 多 机 器 学 习 书 籍 ， 如 Mitchell[ Mit97] Russell 和 Norvig[ RN95] ， 其 中 也 包含 后 向 
传播 算法 的 很 好 解释 。 

有 许多 由 神经 网 络 提取 规则 的 技术 ， 如 [SN88, Gal93, TS93, Avn95, LSL95, CS96, LGT97], 9.2.4 
节 介 绍 的 规则 提取 方法 基于 Lu, Setiono 和 Liu[ LSL95 ] 。 由 神经 网 络 提取 规则 技术 的 批评 可 以 在 Craven 和 
Shavlik[ CS97] 中 找到 。Roy[ Roy00] 提出 ， 神 经 网 络 的 理论 基础 关于 连接 者 学 习作 为 人 脑 模型 的 假定 有 缺 
陷 。 神 经 网 络 在 工业 、 商 务 和 科学 方面 的 应 用 概览 在 Widrow, Rumelhart 和 Lehr[ WRL94] 中 有 涉及 。 

支持 向 量 机 (SVM) WT Vapnik 和 Chervonenkis 的 统计 学 习 理 论 的 早期 工作 [ VC71]。SVM 的 第 一 篇 
论文 是 Boser、GCuyon 和 Vapnik[ BGV92] 的 文章 。 更 详细 的 论述 可 以 在 Vapnik[ Vap95, Vap98] 的 书 中 找 
到 。 好 的 入 门 书包 括 Burges[ Bur98] 的 SVM 指南 和 Haykin[ Hay08 ] ，Kecman[ Kec01 ] Cristianini 和 Shawe- 
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Taylor[ CS-T00] 的 教科 书 。 关 于 最 优化 问题 的 求解 方法 ， 参 见 Fletcher[ Fle87]， 以 及 Nocedal 和 Wright 
[NW99] 。 这 些 文献 给 出 了 本 书 提 到 的 “特殊 数学 技巧 ”的 其 他 细节 ， 如 问题 到 拉 格 朗 日 公式 的 变换 和 其 
后 用 Karush- Kuhn-Tucker (KKT) 条 件 求解 。 

关于 SVM 在 回归 方面 的 应 用 ， 见 Schölkopf, Bartlett, Smola 和 Williamson [ SBSW99 ] ， 以 及 Drucker, 
Burges, Kaufman, Smola 和 Vapnik[ DBK *97 ] 。SVM 用 于 大 型 数据 集 的 方法 ， 包 括 Platt[ Pla98] 的 顺序 最 小 
优化 算法 ， 诸 如 Osuna, Freund 和 Girosi[ OFG97] 的 分 解 方法 ， 以 及 Yu、Yang 和 Han[ YYH03] 提出 的 CB- 
SVM， 一 种 用 于 大 型 数据 集 的 基于 徽 聚 类 的 SVM。 一 个 关于 支持 向 量 机 的 软件 库 由 Chang 和 Lin 在 网 站 
www. csie. niu. edu. tw/ ~ cjlin/libsvm/ 上 提供 ， 它 支持 多 类 分 类 。 

已 经 提出 了 许多 算法 把 频繁 模式 挖掘 用 于 分 类 任务 。 早 期 的 关联 分 类 研究 包括 Liu, Hsu 和 Ma 
[LHM98] 提出 的 CBA 算法 。 使 用 显露 模式 〈 项 集 ， 其 支持 度 从 一 个 数据 集 到 另 一 个 数据 集 显著 变化 ) 分 
类 ,由 Dong 和 Li[ DL99] 以 及 Li, Dong 和 Ramamohanarao [ LDROO] 提出 。CMAR 由 Li, Han 和 Pei 
[LHPO1] 提出 。CPAR 由 Yin 和 Han[ YH03b] 提出 。Cong、Tan 、Tung 和 Xu 提出 RCBT， 控 掘 top- 大 个 覆 
盖 规 则 组 ， 以 高 准确 率 对 基因 表达 数据 分 类 [ CTTX05 ] 。 

Wang 和 Karypis[ WK05] 提出 HARMONY (为 以 实例 为 中 心 的 分 类 挖掘 最 高 置信 度 分 类 规则 ) ， 它 借助 
于 剪 枝 策略 的 帮助 ， 直 接 挖掘 最 终 的 分 类 规则 集 。Lent Swami 和 Widom[ LSW97] 提出 了 挖掘 多 维 关 联 规 
则 的 ARCS 系统 。 它 结合 了 关联 规则 挖掘、 聚 类 和 图 像 处理 的 思想 ， 并 将 它们 用 来 分 类 。Meretakis 和 
Withrich[ MW99] 提出 通过 挖掘 长 项 集 构造 朴素 贝 叶 斯 分 类 器 。Veloso Meira 和 Zaki[ VMZ06] 基于 惰性 
〈 非 急切 ) 学 习 方 法 ， 提 出 了 一 种 基于 关联 规则 的 分 类 方法 ， 其 中 计算 被 请 求 驱 动 。 

基于 有 区 别 能 力 的 频繁 模式 分 类 由 Cheng, Yan, Han 和 Hsu[ CYHHO7] 以 及 Cheng、Yan、Han 和 Yu 
[CYHY08] 引进 。 前 一 著作 建立 在 频繁 模式 的 区 分 能 力 的 理论 上 界 的 基础 上 (基于 信息 增益 [ Qui86] 或 
Fisher 得 分 [DHS01] ) ， 这 个 上 界 可 以 用 于 设置 最 小 支持 度 。 后 一 著作 介绍 DDPMine 算法 ， 这 是 一 种 直接 
为 分 类 挖掘 有 区 别 能 力 的 频繁 模式 的 方法 ， 因 为 它 避 免 产 生 频 繁 模式 的 完全 集 。H. Kim, S. Kim, Weninger 
等 提出 NDPMine 算法 ， 它 通过 考虑 重复 特征 ， 进 行 基于 频繁 和 有 区 别 能 力 的 模式 分 类 [KKW :10]。 

最 近邻 分 类 于 1951 年 由 Fix 和 Hodges[ FHS1] 引进 。 关 于 最 近邻 分 类 的 文章 的 全 面 汇集 可 以 在 Dasar- 
athy[ Das91] 中 找到 。 更 多 的 文献 可 以 在 许多 分 类 教材 中 找到 ， 如 Duda, Hart 和 Stork DHS01 ] James 
[Jam85] ， 以 及 Cover 和 Hart[ CH67] 、Fukunaga 和 Hummels[ FH87] 的 文章 。 它 们 与 属性 加 权 和 噪声 实例 
剪 枝 的 集成 在 Aha[ Aha92 ] 中 介绍 。 使 用 搜索 树 改善 最 近邻 分 类 时 间 的 细节 在 Friedman, Bentley 和 Finkel 
[FBF77] 中 有 介绍 。 部 分 距离 方法 由 向 量 量 化 和 压缩 的 研究 者 提出 。 其 要 点 在 Gersho 和 Gray[ GG92] 有 介 
绍 。 删 除 “ 无 用 ”训练 元 组 的 编辑 方法 首先 由 Hart[ Har68] 提出 。 

最 近邻 分 类 法 的 计算 复杂 性 在 Preparata 和 Shamos[ PS85] 中 讨论 。 基 于 案例 的 推理 (CBR) 的 文献 包括 
Riesbeck 和 Schank[ RS89] ，Kolodner[ Kol93] 的 教材 ， 以 及 Leake[ Lea96] Aamodt 和 Plazas[ AP94 ] 的 文章 。 关 
于 商业 应 用 的 清单 ， 参 见 [All94]。 在 医学 方面 的 应 用 的 例子 包括 Koton[ Kot88] 的 CASEY, Bareiss, Porter 和 
Weir[ BPW88] 的 PROTOS， 而 Rissland 和 Ashley[ RA87] 是 CBR 用 于 法 律 的 一 个 例子 。 多 个 商用 软件 产品 都 提供 
了 CBR。 关 于 遗传 算法 的 书籍 见 Goldberg[ Gol89 ] ，Michalewicz[ Mic92] 和 Mitchell[ Mit96] 。 

粗糙 集 的 介绍 在 Pawlak[ Paw91] 中 有 介绍 。 数 据 挖掘 中 粗糙 集 理论 的 简洁 总 结 包括 Ziarko[ Zia91 ] ， 以 
及 Cios, Pedrycz 和 Swiniarski[ CPS98 ] 。 粗 糙 集 业已 用 于 许多 应 用 的 特征 归 约 和 专家 系统 ,包括 Ziarko 
[Zia91], Lenarcik 和 Piasta[ LP97] ， 以 及 Swiniarski[ Swi98 ] 。 降低 寻找 归 约 的 计算 强度 的 算法 已 在 Rauszer 
[SR92] 中 提出 。 模 糊 集 理论 由 Lofti Zadeh 在 [Zad65，Zad83] 中 提出 。 更 多 的 介绍 可 以 在 Yager 和 Zadeh 
[YZ94 ] 、Kecman[ Kec01] 中 找到 。 

多 类 分 类 的 著作 在 Hastie 和 Tibshirani[ HT98], Tax 和 Duin[ TD02 ] ， 以 及 Allwein, Shapire 和 Singer 
[ ASS00] 中 介绍 。Zhu[ Zhu05] 提供 了 半 监 督 分 类 的 全 面 综 述 。 关 于 进一步 的 参考 文献 ， 参 见 Chapelle、 
Schélkopf 和 Zien[ CSZ06] 编辑 的 书 。Dietterich 和 Bakiri[ DB95 ] 提出 对 多 类 分 类 使 用 纠 错 码 。 关 于 主动 学 
习 的 综述 ， 参 见 Settles[ Set10] 。Pan 和 Yang 提出 了 关于 迁移 学 习 的 综述 [PY10]。 迁移 学 习 的 TrAdaBoost 
算法 在 Dai 、 Yang、Xue 和 Yu[ DYXY07] 中 给 出 。 
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聚 类 分 析 : 基本 概念 和 方法 


想象 你 是 AllElectronics 的 客户 关系 主管 ， 有 5 个 经 理 为 你 工作 。 你 想 把 公司 的 所 有 客户 
组 织 成 5 个 组 ， 以 便 可 以 为 每 组 分 配 一 个 不 同 的 经 理 。 从 策略 上 讲 ， 你 想 使 每 组 内 部 的 客户 
尽 可 能 相似 。 此 外 ， 两 个 商业 模式 很 不 相同 的 客户 不 应 该 放 在 同一 组 。 你 的 这 种 商务 策略 的 
意图 是 根据 每 组 客户 的 共同 特点 ， 开 发 一 些 特别 针对 每 组 客户 的 客户 联系 活动 。 什 么 类 型 的 
数据 挖掘 能 够 帮助 你 完成 这 一 任务 ? 

与 分 类 不 同 ， 每 个 客户 的 类 标号 (或 group ID) 是 未 知 的 。 你 需要 发 现 这 些 分 组 。 考 
虑 到 大 量 客户 和 描述 客户 的 众多 属性 ， 靠 人 研究 数据 ， 并 且 人 工地 找 出 将 客户 划分 成 有 战略 
意义 的 组 群 的 方法 可 能 代价 很 大 ， 甚 至 是 不 可 行 的 ， 你 需要 借助 于 聚 类 工具 。 

聚 类 是 一 个 把 数据 对 象 集 划 分 成 多 个 组 或 袋 的 过 程 ， 使 得 簇 内 的 对 象 具有 很 高 的 相似 
性 ， 但 与 其 他 篮 中 的 对 象 很 不 相似 。 相 异性 和 相似 性 根据 描述 对 象 的 属性 值 评 估 ， 并 且 通 常 
涉及 距离 度量 ” 。 聚 类 作为 一 种 数据 挖掘 工具 已 经 植 根 于 许多 应 用 领域 ， 如 生物 学 、 安 全 、 
商务 智能 和 Web 搜索 。 

本 章 介绍 聚 类 分 析 的 基本 概念 和 方法 。 在 10. 1 节 ， 我 们 引进 该 主题 并 研究 海量 数据 的 
育 类 方法 和 各 种 应 用 的 要 求 。 我 们 将 学 习 一 些 基 本 聚 类 技术 ， 分 成 如 下 几 类 : 划分 方法 
(10.2 节 )、 层 次 方法 (10.3 节 )、 基 于 密度 的 方法 (10.4 节 ) 和 基于 网 格 的 方法 (10.5 
节 )。 在 10.6 节 ， 我 们 简要 讨论 如 何 评估 夹 类 方法 。 关 于 高 级 聚 类 方法 的 讨论 留 给 第 11 章 。 


10.1 RÆSA 
本 节 为 研究 聚 类 分 析 建 立 基础 。10. 1. 1 节 定 义 聚 类 分 析 并 给 出 一 些 例子 。 在 10.1.2 
节 ， 我 们 将 学 习 比 较 聚 类 方法 ， 以 及 对 聚 类 的 要 求 。 基 本 聚 类 技术 的 概述 在 10. 1. 3 节 提 供 。 


10.1.1 什么 是 聚 类 分 析 


聚 类 分 析 (cluster analysis) 简称 聚 类 (clustering ) ， 是 一 个 把 数据 对 象 (或 观测 ) 划分 
成 子 集 的 过 程 。 每 个 子 集 是 一 个 簇 (cluster), HBR PHM RIL, HSH PY 
对 象 不 相似 。 由 聚 类 分 析 产 生 的 徐 的 集合 称 做 一 个 聚 类 。 在 这 种 语 境 下 ， 在 相同 的 数据 集 
E, 不同 的 聚 类 方法 可 能 产生 不 同 的 聚 类 。 划 分 不 是 通过 人 ， 而 是 通过 聚 类 算法 进行 。 聚 类 
是 有 用 的 ， 因 为 它 可 能 导致 数据 内 事先 未 知 的 群 组 的 发 现 。 

聚 类 分 析 已 经 广泛 地 用 于 许多 应 用 领域 ,包括 商务 智能 、 图 像 模式 识别 、Web 搜索 、 
生物 学 和 安全 。 在 商务 智能 应 用 中 ， 聚 类 可 以 用 来 把 大 量 客户 分 组 ， 其 中 组 内 的 客户 具有 非 
常 类 似 的 特征 。 这 有 利于 开发 加 强 客户 关系 管理 的 商务 策略 。 此 外 ， 考 虑 具有 大 量 项 目的 咨 
询 公司 。 为 了 改善 项 目 管理 ， 可 以 基于 相似 人 性 把 项 目 划 分 成 类 别 ， 使 得 项 目 审计 和 诊断 
(改善 项 目 提交 和 结果 ) 可 以 更 有 效 地 实施 。 

在 图 像 识别 应 用 中 ， 育 类 可 以 在 手写 字符 识别 系统 中 用 来 发 现 秘 或 “ 子 类 ”。 假 设 我 们 
有 手写 数字 的 数据 集 ， 其 中 每 个 数字 标记 为 1 ，2，3 等 。 注 意 ， 人 们 写 相同 的 数字 可 能 存在 








O ”数据 的 相似 性 和 相 异 性 已 在 2. 4 节 详 细 讨 论 。 你 可 以 参阅 那 一 节 ， 快 速 复习 。 
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很 大 差别 。 例 如 ， 数 字 “2”， 有 些 人 写 的 时 候 可 能 在 左下 方 带 一 个 小 圆圈 ， 而 另 一 些 人 不 
会 。 我 们 可 以 使 用 聚 类 确定 “2” 的 子 类 ， 每 个 子 类 代表 手写 可 能 出 现 的 “2” 的 变 体 。 使 
用 基于 子 类 的 多 个 模型 可 以 提高 整体 识别 的 准确 率 。 

在 Web 搜索 中 也 有 许多 聚 类 应 用 。 例 如 ， 由 于 Web 页 面 的 数量 巨大 ， 关 键 词 搜索 常常 
会 返回 大 量 命中 对 象 〈 即 与 搜索 相关 的 网 页 ) 。 可 以 用 聚 类 将 搜索 结果 分 组 ， 以 简明 、 容 易 
访问 的 方式 提交 这 些 结果 。 此 外 ， 已 经 开发 出 把 文档 聚 类 成 主题 的 聚 类 技术 ， 这 些 技术 已 经 
广泛 地 用 在 实际 的 信息 检索 中 。 

作为 一 种 数据 挖掘 功能 ， 聚 类 分 析 也 可 以 作为 一 种 独立 的 工具 ， 用 来 洞察 数据 的 分 布 ， 
观察 每 个 徐 的 特征 ,将 进一步 分 析 集 中 在 特定 的 簇 集合 上 。 另 外 ， 育 类 分 析 可 以 作为 其 他 算 
法 (如 特征 化 、 属 性 子 集 选 择 和 分 类 ) 的 预 处 理 步 绝 ， 之 后 这 些 算法 将 在 检测 到 的 艇 和 选 
择 的 属性 或 特征 上 进行 操作 。 

由 于 簇 是 数据 对 象 的 集合 ， 簇 内 的 对 象 彼此 相似 ， 而 与 其 他 簇 的 对 象 不 相似 ， 因 此 数据 
对 象 的 簇 可 以 看 做 隐 舍 的 类 。 在 这 种 意义 下 ， 育 类 有 时 又 称 自动 分 类 。 再 次 强调 ， 至 关 重 要 
的 区 别 是 ， 聚 类 可 以 自动 地 发 现 这 些 分 组 ， 这 是 聚 类 分 析 的 突出 优点 。 

在 某 些 应 用 中 ， 聚 类 又 称 做 数据 分 割 (data segmentation) ， 因 为 它 根据 数据 的 相似 性 把 
大 型 数据 集合 划分 成 组 。 聚 类 还 可 以 用 于 离 群 点 检测 (outlier detection ) ， 其 中 离 群 点 ( “i 
A” MRNA) 可 能 比 普 通 情况 更 值得 注意 。 离 群 点 检测 的 应 用 包括 信用 卡其 诈 检 测 和 
电子 商务 中 的 犯罪 活动 监控 。 例 如 ， 信 用 卡 交易 中 的 异常 情况 ， 如 非常 昂贵 且 非 频繁 地 购 
K, 类 似 可 能 的 欺诈 活动 是 值得 注意 的 。 离 群 点 检测 是 第 12 章 的 主题 。 

数据 聚 类 正在 鞍 勃 发 展 ， 有 贡献 的 研究 领域 包括 数据 控 据 、 统 计 学 、 机 器 学 习 、 空 间 数 
据 库 技术 、 信 息 检 索 、Web 搜索 、 生 物 学 、 市 场 营 销 等 。 由 于 数据 库 中 收集 了 大 量 的 数据 ， 
限 类 分 析 已 经 成 为 数据 挖掘 研究 领域 中 一 个 非常 活跃 的 研究 课题 。 

作为 统计 学 的 一 个 分 支 ， 聚 类 分 析 已 经 被 广泛 地 研究 了 许多 年 ， 主 要 集中 在 基于 距离 的 
聚 类 分 析 。 基 于 上 -均值 (k-means) 、 上 一 中 心 点 (k-medoids) 和 其 他 一 些 方法 的 聚 类 分 析 
工具 已 经 被 加 入 到 许多 统计 分 析 软 件 包 或 系统 中 ， 例 如 S-Plus, SPSS 以 及 SAS。 回 忆 一 下 ， 
在 机 器 学 习 领 域 ， 分 类 称 做 监督 学 习 ， 因 为 给 定 了 类 标号 信息 ， 即 学 习 算 法 是 监督 的 ， 因 为 
它 被 告知 每 个 训练 元 组 的 类 隶属 关系 。 诊 类 被 称 做 无 监督 学 习 (unsupervised leaming)， 因 
为 没有 提供 类 标号 信息 。 由 于 这 种 原因 ， 聚 类 是 通过 观察 学 习 ， 而 不 是 通过 示例 学 习 。 在 数 
据 挖掘 领域 ， 研 究 工作 一 直 集 中 在 为 大 型 数据 库 的 有 效 聚 类 分 析 寻 找 合适 的 方法 上 。 活 牙 的 
研究 主题 包括 聚 类 方法 的 可 伸缩 性 ， 对 复杂 形状 (如 非 上 四 形 ) 和 各 种 数据 类 型 (例如 ， 文 
本 、 图 形 和 图 像 ) 聚 类 的 有 效 性 ， 高 维 聚 类 技术 (例如 ， 对 具有 数 千 特征 的 对 象 聚 类 ) ， 以 
及 针对 大 型 数据 库 中 数值 和 标 称 混合 数据 的 聚 类 方法 。 


10.1.2 ”对 聚 类 分 析 的 要 求 


案 类 是 一 个 富有 挑战 性 的 研究 领域 。 本 节 ， 我 们 将 学 习作 为 一 种 数据 挖掘 工具 对 聚 类 的 
要 求 ， 以 及 用 于 比较 聚 类 方法 的 诸 方面 。 
数据 挖掘 对 聚 类 的 典型 要 求 如 下 : 
。 可 伸缩 性 : 许多 聚 类 算法 在 小 于 几 百 个 数据 对 象 的 小 数据 集合 上 运行 良好 ， 然 而 ， 
大 型 数据 库 可 能 包含 数 百 万 甚至 数 十 亿 个 对 象 ，Web 搜索 尤其 如 此 ， 在 大 型 数据 集 
的 样本 上 进行 聚 类 可 能 会 导致 有 偏 的 结果 。 因 此 ， 我 们 需要 具有 高 度 可 伸缩 性 的 聚 
类 算法 。 
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处 理 不 同属 性 类 型 的 能 力 : 许多 算法 是 为 聚 类 数值 (基于 区 间 ) 的 数据 设计 的 。 然 
而 ， 应 用 可 能 要 求 聚 类 其 他 类 型 的 数据 ， 如 二 元 的 、 标 称 的 【〈 分 类 的 ) 、 序 数 的 ， 
或 者 这 些 数据 类 型 的 混合 。 最 近 ， 越 来 越 多 的 应 用 需要 对 诸如 图 、 序 列 、 图 像 和 文 
档 这 样 的 复杂 数据 类 型 进行 聚 类 的 技术 。 

发 现任 意 形状 的 簇 : 许多 聚 类 算法 基于 欧 几 里 得 或 曼哈顿 距离 度量 (第 2 章 ) 来 确 
定 簇 。 基 于 这 些 距 离 度量 的 算法 趋向 于 发 现 具有 相近 尺寸 和 密度 的 球状 和 能。 然而 ， 
一 个 篮 可 能 是 任意 形状 的 。 例 如 ， 考 虑 传感器 ， 通 常 为 了 环境 检测 而 部 署 它们 。 传 
感 器 读数 上 的 聚 类 分 析 可 能 揭示 有 趣 的 现象 。 我 们 可 能 想 用 聚 类 发 现 森林 大 火 蔓延 
的 边缘 ， 这 常常 是 非 球形 的 。 重 要 的 是 要 开发 能 够 发 现任 意 形 状 的 篮 的 算法 。 

对 于 确定 输入 参数 的 领域 知识 的 要 求 : 许多 上 聚 类 算法 都 要 求 用 户 以 输入 参数 (如 和 希 
望 产生 的 租 数 ) 的 形式 提供 领域 知识 。 因 此 ， 聚 类 结果 可 能 对 这 些 参 数 十 分 敏感 。 
通常 ， 参 数 很 难 确定 ， 对 于 高 维 数据 集 和 用 户 尚未 深入 理解 的 数据 来 说 更 是 如 此 。 
要 求 提供 领域 知识 不 仅 加 重 了 用 户 的 负担 ， 而 且 也 使 得 聚 类 的 质量 难以 控制 。 

处 理 噪 声 数据 的 能 力 : 现实 世界 中 的 大 部 分 数据 集 都 包含 离 群 点 和 /或 缺失 数据 、 未 
知 或 错误 的 数据 。 例 如 ， 传 感 器 读数 通常 是 有 噪声 的 一 一 有 些 读数 可 能 因 传 感 机 制 
问题 而 不 正确 ， 而 有 些 读数 可 能 因 周 围 对 象 的 瞬时 干扰 而 出 错 。 一 些 聚 类 算法 可 能 
对 这 样 的 噪声 敏感 ， 从 而 产生 低 质 量 的 玄 类 结果 。 因 此 ， 我 们 需要 对 噪声 鲁 棱 的 至 
类 方法 。 

增 量 聚 类 和 对 输入 次 序 不 敏感 : 在 许多 应 用 中 ， 增 量 更 新 (提供 新 数据 ) 可 能 随时 
发 生 。 一 些 聚 类 算法 不 能 将 新 插 人 的 数据 〈 如 数据 库 更 新 ) 合并 到 已 有 的 聚 类 结构 
中 去 ， 而 是 需要 从 头 开始 重新 聚 类 。 一 些 聚 类 算法 还 可 能 对 输入 数据 的 次 序 敏 感 。 
也 就 是 说 ， 给 定数 据 对 象 集合 ， 当 以 不 同 的 次 序 提 供 数据 对 象 时 ， 这 些 算法 可 能 生 
成 差别 很 大 的 绢 类 结果 。 需 要 开发 增 量 聚 类 算法 和 对 数据 输入 次 序 不 敏感 的 算法 。 
聚 类 高 维 数据 的 能 力 : 数据 集 可 能 包含 大 量 的 维 或 属性 。 例 如 ， 在 文档 聚 类 时 ， 每 
个 关键 词 都 可 以 看 做 一 个 维 ， 并 且 常 常 有 数 以 千 计 的 关键 词 。 许 多 聚 类 算法 擅长 处 
理 低 维 数据 ， 如 只 涉及 两 三 个 维 的 数据 。 发 现 高 维 空间 中 数据 对 象 的 簇 是 一 个 挑战 ， 
特别 是 考虑 这 样 的 数据 可 能 非常 稀疏 ， 并 且 高 度 倾斜 。 

基于 约束 的 聚 类 : 现实 世界 的 应 用 可 能 需要 在 各 种 约束 条 件 下 进行 聚 类 。 假 设 你 的 
工作 是 在 一 个 城市 中 为 给 定数 目的 自动 提 款 机 (ATM) 选择 安放 位 置 。 为 了 做 出 决 
定 ， 你 可 以 对 住宅 进行 聚 类 ， 同 时 考虑 如 城市 的 河流 和 公路 网 、 每 个 簇 的 客户 的 类 
型 和 数量 等 情况 。 找 到 既 满 足 特定 的 约束 又 具有 良好 聚 类 特性 的 数据 分 组 是 一 项 具 
有 挑战 性 的 任务 。 

可 解释 性 和 可 用 性 ， 用 户 希望 聚 类 结果 是 可 解释 的 、 可 理解 的 和 可 用 的 。 也 就 是 说 ， 
聚 类 可 能 需要 与 特定 的 语义 解释 和 应 用 相 联系 。 重 要 的 是 研究 应 用 目标 如 何 影响 聚 
类 特征 和 聚 类 方法 的 选择 。 


下 面 是 可 以 用 于 比较 聚 类 方法 的 诸 方面 : 


划分 准则 : 在 某 些 方法 中 ， 所 有 的 对 象 都 被 划分 ， 使 得 篮 之 间 不 存在 层次 结构 。 也 
就 是 说 ， 在 概念 上 ， 所 有 的 艇 都 在 相同 的 层 。 这 种 方法 是 有 用 的 。 例 如 ， 把 客户 分 
组 ， 使 得 每 组 都 有 自己 的 经 理 。 另 外 ， 其 他 方法 分 层 划分 数据 对 象 ， 其 中 簇 可 以 在 
不 同 的 语义 层 形成 。 例 如 ， 在 文本 挖掘 中 ,我们 可 能 想 把 文档 资料 组 织 成 多 个 一 般 
主题 如 “政治 ”和 “体育 " ,每 个 主题 都 可 能 有 子 主题 ,例如 “体育 ”可 能 有 
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“足球 ”"、“ 人 篮球 ”"、“ 棒 球 ” 和 “曲棍球 ” 子 主题 。 在 层次 结构 中 ， 后 4 个 子 主题 都 
处 于 比 “体育 ” 低 的 层次 。 
。 EMDR: 有 些 聚 类 方法 把 数据 对 象 划分 成 互 斥 的 徐 。 把 客户 聚 类 成 组 ， 使 得 每 
组 由 一 位 经 理 负责 ， 此 时 每 个 客户 可 能 只 属于 一 个 组 。 在 其 他 一 些 情况 下 ， 簇 可 以 
不 是 互 斥 的 ， 即 一 个 数据 对 象 可 以 属于 多 个 簇 。 例 如 ， 在 把 文档 聚 类 到 主题 时 ， 一 
个 文档 可 能 与 多 个 主题 有 关 。 因 此 ， 作 为 簇 的 主题 可 能 不 是 互 斥 的 。 
。 相似 性 度量 : 有 些 方法 用 对 象 之 间 的 距离 确定 两 个 对 象 之 间 的 相似 性 。 这 种 距离 可 
以 在 欧 氏 空间 、 公 路 网 、 向 量 空间 或 其 他 空间 中 定义 。 在 其 他 方法 中 ， 相 似 性 可 以 
用 基于 密度 的 连接 性 或 邻近 性 定义 ， 并 且 可 能 不 依赖 两 个 对 象 之 间 的 绝对 距离 。 相 
似 性 度量 在 聚 类 方法 的 设计 中 起 重要 作用 。 昌 然 基于 距离 的 方法 常常 可 以 利用 最 优 
化 技术 ， 但 是 基于 密度 或 基于 连通 性 的 方法 常常 可 以 发 现任 意 形状 的 能 。 
© RAS: 许多 聚 类 方法 都 在 整个 给 定 的 数据 空间 中 搜索 人 能。 这 些 方法 对 于 低 维 数据 集 
是 有 用 的 。 然 而 ， 对 于 高 维 数据 ， 可 能 有 许多 不 相关 的 属性 ， 可 能 使 得 相似 性 度量 不 可 
靠 。 因此， 在 整个 空间 中 发 现 的 簇 常常 没有 意义 。 最 好 是 在 相同 数据 集 的 不 同 子 空间 内 
搜索 能 。 子 空间 又 类 发 现 揭示 对 象 相 似 性 的 秒 和 子 空间 (通常 是 低 维 的 ) 。 
总 而 言 之 ， 聚 类 算法 具有 多 种 要 求 。 这 些 因 素 包括 可 伸缩 性 和 处 理 不 同属 性 类 型 、 噪 声 数 
据 、 增 量 更 新 、 任 意 形状 的 簇 和 约束 的 能 力 。 可 解释 性 和 可 用 性 也 是 重要 的 。 此 外 ， 关 于 划分 
的 层次 、 簇 是 否 互 斥 、 所 使 用 的 相似 性 度量 、 是 否 在 子 空间 聚 类 ， 聚 类 方法 也 可 能 有 区 别 。 


10.1.3 基本 聚 类 方法 概述 


文献 中 有 大 量 的 聚 类 算法 。 很 难 对 聚 类 方法 提出 一 个 简洁 的 分 类 ， 因 为 这 些 类 别 可 能 重 
全 ,从 而 使 得 一 种 方法 具有 几 种 类 别 的 特征 。 尽 管 如 此 ， 对 各 种 不 同 的 聚 类 方法 提供 一 个 相 
对 有 组 织 的 描述 仍然 是 十 分 有 用 的 。 一 般 而 言 ， 主 要 的 基本 育 类 算法 可 以 划分 为 如 下 几 类 ， 
它们 将 在 本 章 的 其 余部 分 讨论 。 

划分 方法 (partitioning method): 给 定 一 个 n 个 对 象 的 集合 ， 划 分 方法 构建 数据 的 上 个 
分 区 ， 其 中 每 个 分 区 表示 一 个 徐 ， 并 且 <n。 也 就 是 说 ， 它 把 数据 划分 为 个 组 ， 使 得 每 
个 组 至 少 包含 一 个 对 象 。 换 言 之 ， 划 分 方法 在 数据 集 上 进行 一 层 划分 。 典 型 地 ， 基 本 划分 方 
法 采取 互 斥 的 徐 划 分 ， 即 每 个 对 象 必须 恰好 属于 一 个 组 。 这 一 要 求 ， 例 如 在 模糊 划分 技术 
中 ， 可 以 放宽 。 在 文献 注释 中 列 出 了 该 类 技术 的 参考 文献 (10.9 节 )。 

大 部 分 划分 方法 是 基于 距离 的 。 给 定 要 构建 的 分 区 数 上 ， 划 分 方法 首先 创建 一 个 初始 划 
分 。 然 后 ， 它 采用 一 种 迭代 的 重 定位 技术 ， 通 过 把 对 象 从 一 个 组 移动 到 另 一 个 组 来 改进 划分 。 
一 个 好 的 划分 的 一 般 准则 是 : 同一 个 入 中 的 对 象 尽 可 能 相互 “接近 ”或 相关 ， 而 不 同 复 中 的 
对 象 尽 可 能 “远离 ”或 不 同 。 还 有 许多 评判 划分 质量 的 其 他 准则 。 传 统 的 划分 方法 可 以 扩展 
到 子 空间 聚 类 ， 而 不 是 搜索 整个 数据 空间 。 当 存在 很 多 属性 并 且 数 据 稀疏 时 ， 这 是 有 用 的 。 

为 了 达到 全 局 最 优 ， 基 于 划分 的 聚 类 可 能 需要 穷 举 所 有 可 能 的 划分 ， 计 算 量 极 大 。 实 际 
上 ， 大 多 数 应 用 都 采用 了 流行 的 启发 式 方法 ， 如 诺 - 均值 和 大 - 中 心 点 算法 ， 渐 近 地 提 高 聚 
类 质量 ， 逼 近 局 部 最 优 解 。 这 些 启 发 式 聚 类 方法 很 适合 发 现 中 小 规模 的 数据 库 中 的 球状 簇 。 
为 了 发 现 具有 复杂 形状 的 篮 和 对 超大 型 数据 集 进 行 聚 类 ， 需 要 进一步 扩展 基于 划分 的 方法 。 
10. 2 节 深 入 研究 基于 划分 的 聚 类 方法 。 

层次 方法 〈hierarchical method): 层次 方法 创建 给 定数 据 对 象 集 的 层次 分 解 。 根 据 层 次 
分 解 如 何 形成 ， 层 次 方法 可 以 分 为 凝聚 的 或 分 裂 的 方法 。 凝 聚 的 方法 ， 也 称 自 底 向 上 的 方 


法 ， 开 始 将 每 个 对 象 作为 单独 的 一 个 组 ， 然 后 逐次 合并 相近 的 对 象 或 组 ， 直 到 所 有 的 组 合并 
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为 一 个 组 (层次 的 最 项 层 ), 或 者 满足 某 个 终止 条 件 。 分 裂 的 方法 ， 也 称 为 自 顶 向 下 的 方 
法 ， 开 始 将 所 有 的 对 象 置 于 一 个 艇 中 。 在 每 次 相继 迄 代 中 ， 一 个 簇 被 划分 成 更 小 的 徐 ， 直 到 
最 终 每 个 对 象 在 单独 的 一 个 簇 中 ,或 者 满足 某 个 终止 条 件 。 

层次 聚 类 方法 可 以 是 基于 距离 的 或 基于 密度 和 连通 性 的 。 层 次 聚 类 方法 的 一 些 扩 展 也 考 
虑 了 子 空间 聚 类 。 

层次 方法 的 缺陷 在 于 ， 一 旦 一 个 步骤 (合并 或 分 裂 ) 完成 ， 它 就 不 能 被 撤销 。 这 个 严格 规定 
是 有 用 的 ， 因 为 不 用 担心 不 同 选择 的 组 合 数目 ， 它 将 产生 较 小 的 计算 开销 。 然 而 ， 这 种 技术 不 能 
更 正 错 误 的 决定 。 已 经 提出 了 一 些 提高 层次 聚 类 质量 的 方法 。 层 次 聚 类 方法 将 在 10. 3 节 介绍 。 

基于 密度 的 方法 (density-based method): 大 部 分 划分 方法 基于 对 象 之 间 的 距离 进行 聚 类 。 
这 样 的 方法 只 能 发 现 球状 能 ， 而 在 发 现任 意 形状 的 能 时 遇 到 了 困难 。 已 经 开发 了 基于 密度 概念 
的 聚 类 方法 ， 其 主要 思想 是 : 只 要 “ 邻 域 ”中 的 密度 〈 对 象 或 数据 点 的 数目 ) 超过 某 个 阐 值 ， 
就 继续 增长 给 定 的 徐 。 也 就 是 说 ， 对 给 定 簇 中 的 每 个 数据 点 ， 在 给 定 半径 的 邻 域 中 必须 至 少 包 
含 最 少数 目的 点 。 这 样 的 方法 可 以 用 来 过 滤 品 声 或 离 群 点 ， 发 现任 意 形状 的 簇 。 

基于 密度 的 方法 可 以 把 一 个 对 象 集 划分 成 多 个 互 斥 的 伴 或 能 的 分 层 结 构 。 通 常 ， 基 于 密 
度 的 方法 只 考虑 互 斥 的 能 ， 而 不 考虑 模糊 人 能。 此外， 可 以 把 基于 密度 的 方法 从 整个 空间 聚 类 
扩展 到 子 空间 聚 类 。 基 于 密度 的 聚 类 方法 在 10. 4 节 介绍 。 

基于 网 格 的 方法 (grid-based method) : 基于 网 格 的 方法 把 对 象 空间 量化 为 有 限 个 单元 ， 
形成 一 个 网 格 结构 。 所 有 的 聚 类 操作 都 在 这 个 网 格 结构 ( 即 量化 的 空间 ) 上 进行 。 这 种 方 
法 的 主要 优点 是 处 理 速度 很 快 ， 其 处 理 时 间 通 常 独立 于 数据 对 象 的 个 数 ， 而 仅 依赖 于 量化 空 
间 中 每 一 维 的 单元 数 。 

对 于 许多 空间 数据 挖掘 问题 (包括 聚 类 ) ， 使 用 网 格 通常 都 是 一 种 有 效 的 方法 。 因 此 ， 
基于 网 格 的 方法 可 以 与 其 他 聚 类 方法 (如 基于 密度 的 方法 和 层次 方法 ) 集成 。 基 于 网 格 的 
方法 在 10.5 节 介绍 。 

图 10. 1 简略 地 总 结 了 这 些 方法 。 有 些 育 类 方法 集成 了 多 种 聚 类 方法 的 思想 ， 因 此 有 时 
很 难 将 一 个 给 定 的 算法 只 划 归 到 一 个 聚 类 方法 类 别 。 此 外 ， 有 些 应 用 可 能 有 某 种 聚 类 准则 ， 
要 求 集成 多 种 聚 类 技术 。 
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层次 方法 ~ 不 能 纠正 错误 的 合并 或 划分 


~ 可 以 集成 其 他 技术 ， 如 微 聚 类 或 考虑 对 象 “连接 " 

~ 可 以 发 现任 意 形状 的 簇 

-~ 簇 是 对 象 空间 中 被 低 密 度 区 域 分 申 的 稠密 区 域 

~ 簇 密度 : 每 个 点 的 “ 邻 域 ” 内 必须 具有 最 少 个 数 的 点 
~ 可 能 过 滤 离 群 点 


~ 使 用 一 种 多 分 辩 率 网 格 数据 结构 
基于 网 格 的 方法 
~ 快速 处 理 ( 典型 地 ， 独 立 于 数据 对 象 数 ， 但 依赖 于 网 格 大 小 ) 


图 10.1 本 章 讨论 的 聚 类 方法 概览 。 注 意 ， 有 些 算法 可 能 结合 了 多 种 方法 












基于 密度 的 方法 











第 10 章 ” 聚 类 分 析 : 基本 概念 和 方法 + 293 


在 以 下 各 节 ， 我 们 详细 考察 以 上 各 种 聚 类 方法 。 高 级 聚 类 方法 和 相关 问题 在 第 11 章 讨 
论 。 一 般 地 ， 这 些 章节 中 用 到 的 符号 如 下 : D 表示 由 n 个 被 聚 类 的 对 象 组 成 的 数据 集 。 对 象 
用 ad 个 变量 描述 ， 其 中 每 个 变量 又 称 属性 或 维 ， 因 此 对 象 也 可 能 被 看 做 d 维 对 象 空间 中 的 
点 。 对 象 用 粗 斜体 字母 表示 (例如 p)。 


10.2 划分 方法 

聚 类 分 析 最 简单 、 最 基本 的 版 本 是 划分 ， 它 把 对 象 组 织 成 多 个 互 斥 的 组 或 能 。 为 了 使 得 
问题 说 明 简 洁 ， 我 们 假定 复 个 数 作为 背景 知识 给 定 。 这 个 参数 是 划分 方法 的 起 点 。 

形式 地 ， 给 定 n 个 数据 对 象 的 数据 集 D， 以 及 要 生成 的 簇 数 k， 划 分 算法 把 数据 对 象 组 
AMA (kn) 个 分 区 ， 其 中 每 个 分 区 代表 一 个 簇 。 这 些 艇 的 形成 旨 在 优化 一 个 客观 划分 准 
则 ， 如 基于 距离 的 相 蜡 性 函数 ,使 得 根据 数据 集 的 属性 ， 在 同一 个 簇 中 的 对 象 是 “相似 
的 ”"， 而 不 同 簇 中 的 对 象 是 “ 相 蜡 的 ”。 

本 节 ， 我 们 将 学 习 最 著名 、 最 常用 的 划分 方法 一 一 k -均值 (10.2.1 节 ) 和 -中心 点 
(10.2.2 节 )。 我 们 还 将 学 习 这 些 经 典 划 分 方法 的 一 些 变种 ， 以 及 如 何 扩展 它们 以 处 理 大 型 
数据 集 。 


10.2.1 kk 一 均值 ， 一 种 基于 形 心 的 技术 

假设 数据 集 D 包含 n 个 欧 氏 空间 中 的 对 象 。 划 分 方法 把 D HARRIER k NR 
Cl，-…，C 中 ， 使 得 对 于 1<i, j<k，Ci:CD 日 Cinc = 纪 。 一 个 目标 函数 用 来 评估 划分 的 
质量 ,使 得 徐 内 对 象 相互 相似 ， 而 与 其 他 簇 中 的 对 象 相 蜡 。 也 就 是 说 ,该 目标 函数 以 艇 内 高 
相似 性 和 簇 间 低 相似 性 为 目标 。 

基于 形 心 的 划分 技术 使 用 簇 C WS RRR. MSE, RAB OREN POA. 
形 心 可 以 用 多 种 方法 定义 ， 例 如 用 分 配给 该 篮 的 对 象 (RA) 的 均值 或 中 心 点 定义 。 对 象 
pe, 与 该 艇 的 代表 ci 之 差 用 dist(p, c) 度量 ， 其 中 dt(z，y) 是 两 个 点 x 和 y 之 间 的 欧 
FBS RC 的 质量 可 以 用 闭 内 变 差 度量 ， 它 是 C; 中 所 有 对 象 和 形 心 c; 之 间 的 误差 的 平方 


k 
E = pe) (10.1) 


其 中 ,是 数据 集中 所 有 对 象 的 误差 的 平方 和 ; p 是 空间 中 的 点 ， 表 示 给 定 的 数据 对 象 ; ce: 
FERC, 的 形 心 (p Ale, 都 是 多 维 的 ) 。 换 言 之 ， 对 于 每 个 簇 中 的 每 个 对 象 ， 求 对 象 到 其 簇 中 
心 距离 的 平方 ， 然 后 求 和 。 这 个 目标 函数 试图 使 生成 的 结果 徐 尽 可 能 紧 竣 和 独立 。 

优化 簇 内 变 差 是 一 项 具有 挑战 性 的 计算 任务 。 在 最 坏 情况 下 ， 我 们 必须 枚 举 大 量 可 
能 的 划分 (是 艇 数 的 指数 ) ， 并 检查 簇 内 变 差 值 。 业 已 证 明 ， 在 一 般 的 欧式 空间 中 ， 即 
便 对 于 两 个 能 〈 即 上 =2) ， 该 问题 也 是 NP- 困 难 的 。 此 外 ， 即 便 在 二 维 欧 氏 空间 中 ， 对 
于 一 般 的 簇 个 数 上， 该 问题 也 是 NP- 困 难 的 。 如 果 秘 个 数 记 和 空间 维度 d 固定 ， 则 该 问 
题 可 以 在 O (n™*'logn) 时 间 内 求解 ， 其 中 是 对 象 的 个 数 。 为 了 克服 求 精确 解 的 巨大 
计算 开销 ， 实 践 中 通常 需要 使 用 贪心 方法 。 一 个 基本 例子 是 大- 均值 算法 ， 它 简单 并 且 
经 常 使 用 。 

“上 一 均值 算法 是 怎样 工作 的 ?” 上 -均值 算法 把 驴 的 形 心 定义 为 簇 内 点 的 均值 。 它 
的 处 理 流程 如 下 。 首 先 ， 在 D 中 随机 地 选择 个 对 象 ， 每 个 对 象 代表 一 个 艇 的 初始 均 
值 或 中 心 。 对 剩 下 的 每 个 对 象 ， 根 据 其 与 各 个 簇 中 心 的 欧 氏 距 离 ， 将 它 分 配 到 最 相似 
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KE. RE, 上 -均值 算法 选 代 地 改善 能 内 变 善 。 对 于 每 个 能 ， 它 使 用 上 次 迭代 分 配 到 
该 篮 的 对 象 ， 计 算 新 的 均值 。 然 后 ， 使 用 更 新 后 的 均值 作为 新 的 簇 中 心 ， 重 新 分 配 所 
452| 有 对 象 。 选 代 继续 ， 直 到 分 配 稳定 ， 即 本 轮 形成 的 艇 与 前 一 轮 形成 的 能 相同 。 上 -均值 
过 程 概括 在 图 10. 2 中 。 
算法 :全 均值。 用 于 划分 的 人 ~ 均值 算法 ， 其 中 每 个 入 的 中 心 都 用 灸 中 所 有 对 象 的 均值 来 表示 -| 
输入 : 
° k: WHH: 
© D: 包含 "个 对 象 的 数据 集 - 
输出 : ERRE: 








法 : 
C1) 从 D 中 任意 选择 kf 个 对 象 作 为 初始 挟 中 心 ; 
(2) repeat 
GO ALGAE HR. KETRIN: 
(4) RMR. BRAS MED NRE: 
(5) until 不 再 发 生变 化 :; | 


图 10.2 大 -均值 划分 算法 


例 10.1 使 用 K- 均 值 划分 的 聚 类 。 考 虑 二 维 空间 的 对 象 集合 ， 如 图 10. 3a 所 示 。 令 
k=3， 即 用 户 要 求 将 这 些 对 象 划 分 成 3 个 簇 。 

根据 图 10. 2 中 的 算法 ,我 们 任意 选择 3 个 对 象 作 为 3 个 初始 的 簇 中 心 ， 其 中 簇 中 心 用 
“+” 标 记 。 根 据 与 簇 中 心 的 距离 ， 每 个 对 象 被 分 配 到 最 近 的 一 个 簇 。 这 种 分 配 形成 了 如 
图 10. 3a 中 虚线 所 描绘 的 轮廓 。 

下 一 步 ， 更 新 徐 中 心 。 也 就 是 说 ， 根 据 簇 中 的 当前 对 象 ， 重 新 计算 每 个 徐 的 均值 。 使 用 
这 些 新 的 徐 中 心 ， 把 对 象 重新 分 布 到 离 徐 中 心 最 近 的 艇 中。 这样 的 重新 分 布 形成 了 图 10. 3b 
中 虚线 所 描绘 的 轮廓 。 

重复 这 一 过 程 ， 形 成 图 10. 3 所 示 结 果 。 这 种 迭代 地 将 对 象 重新 分 配 到 各 个 簇 ， 以 改进 
划分 的 过 程 被 称 为 迭代 的 重 定位 (iterative relocation) 。 最 终 ， 对 象 的 重新 分 配 不 再 发 生 ， 处 
HEAR, REYER ARK. a 
































a) 初始 聚 类 b) 迭代 o) 最 终 的 聚 类 


图 10.3 ”使 用 4- 均 值 方法 聚 类 对 象 集 ; 更 新 能 中 心 ， 并 相应 地 重新 分 配 诸 对 象 
(每 个 科 的 均值 都 用 “ + ”标注 ) 
不 能 保证 -均值 方法 收敛 于 全 局 最 优 解 ， 并 且 它 常常 终止 于 一 个 局 部 最 优 解 。 结 果 可 
能 依赖 于 初始 能 中 心 的 随机 选择 。 (作为 习题 ， 请 你 给 出 一 个 例子 。) 实践 中 ， 为 了 得 到 好 
的 结果 ， 通 常 以 不 同 的 初始 簇 中 心 ， 多 次 运行 k -均值 算法 。 
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一 均值 算法 的 复杂 度 是 0(nht) ， 其 中 n 是 对 象 总 数 ,，k 是 簇 数 ，i 是 迭代 次 数 。 通 常 ， 
5 << 并 且 ! <<nm。 因 此 ， 对 于 处 理 大 数据 集 ， 该 算法 是 相对 可 伸缩 的 和 有 效 的 。 

一 均值 方法 有 一 些 变 种 。 它 们 可 能 在 初始 个 均值 的 选择 、 相 异 度 的 计算 、 簇 均值 的 
计算 策略 上 有 所 不 同 。 - 

RRM EAE MAREE k- 均值 方法 。 在 某 些 应 用 中 ， 例 如 当 涉 及 具有 标 称 属 
性 的 数据 时 ， 均 值 可 能 无 定义 。k - 众 数 (k-modes) 方法 是 -均值 的 一 个 变 体 ， 它 扩展 了 
有 ~ 均值 范例 ， 用 簇 众 数 取代 簇 均值 来 聚 类 标 称 数据 。 它 采用 新 的 相 异 性 度量 来 处 理 标 称 对 
象 ， 采 用 基于 频率 的 方法 来 更 新 艇 的 众 数 。 可 以 集成 丰 - 均值 和 大- 众 数 方法 ， 对 混合 了 数 
值 和 标 称 值 的 数据 进行 聚 类 。 

要 求 用 户 必须 事先 给 出 要 生成 的 复数 下 可 以 算是 该 方法 的 一 个 缺点 。 然 而 ， 针 对 如 何 克 
服 这 一 缺点 已 经 有 一 些 研 究 ， 如 提供 对 值 的 近似 范围 ， 然 后 使 用 分 析 技 术 ， 通 过 比较 由 不 同 
上 得 到 的 聚 类 结果 ， 确 定 最 佳 的 上 值 。 k- 均值 方法 不 适合 于 发 现 非 凸 形 状 的 徐 ， 或 者 大 小 
差别 很 大 的 簇 。 此 外 ， 它 对 噪声 和 离 群 点 敏感 ， 因 为 少量 的 这 类 数据 能 够 对 均值 产生 极 大 的 
影响 。 

“怎样 提高 天 一 均值 算法 的 可 伸缩 性 ?” 一 种 使 下- 均值 在 大 型 数据 集 上 更 有 效 的 方法 是 
在 聚 类 时 使 用 合适 规模 的 样本 。 另 一 种 是 使 用 过 滤 方 法 ， 使 用 空间 层次 数据 索引 节省 计算 均 
值 的 开销 。 第 三 种 方法 利用 微 聚 类 的 思想 ， 首 先 把 邻近 的 对 象 划分 到 一 些 “ 微 能 ” ( micro- 
cluster) 中 ， 然 后 对 这 些微 复 使 用 上 - 均值 方法 进行 取 类 。 微 聚 类 方法 将 在 10.3 节 进 一 步 


讨论 。 


10.2.2 类 -中 心 点 : 一 种 基于 代表 对 象 的 技术 


有 一 均值 算法 对 离 群 点 敏感 ， 因 为 这 种 对 象 远 离 大 多 数 数据 ， 因 此 分 配 到 一 个 徐 时 ， 它 
们 可 能 严重 地 扭曲 簇 的 均值 。 这 不 经 意 间 影响 了 其 他 对 象 到 簇 的 分 配 。 正 如 在 例 10.2 中 所 
观察 到 的 ，( 10. 1) 式 平方 误差 函数 的 使 用 更 是 严重 恶化 了 这 一 影响 。 

例 10.2 k-~- 均 值 的 缺点 。 考 虑 一 维 空间 的 7 个 点 ,它们 的 值 分 别 为 1、2、3、8、9、 
10 和 25。 直 观 地 ， 通 过 视觉 观察 ,我 们 猜想 这 些 点 划分 成 徐 11, 2, 3} 和 18, 9, 10}, 
其 中 点 25 被 排除 ， 因 为 它 看 上 去 是 一 个 离 群 点 。k -均值 如 何 划 分 这 些 值 ? 如 果 我 们 以 = 
2 和 (10.1) 式 使 用 上 -均值 ， 划 分 111, 2, 3}, 18, 9, 10, 25)! RANTZ 
(1-2) +(2-2) + (3 -2)? + (8 - 13)? + (9 - 13)? + (10 - 13)? + (25 - 13)? = 196 
其 中 , 徐 (1, 2, 3) 的 均值 为 2, BE 18, 9, 10, 25} 的 均值 为 13。 把 这 一 划分 与 划分 
111, 2, 3, 8}, 19, 10, 25}} 比较 ， 后 者 的 艇 内 变 差 为 

(1-3.5) + (2 -3.5)? + (3 -3.5)? + (8 -3.5)? + (9 - 14.67)? + (10 - 14.67)? 

+ (25 - 14.67)? = 189. 67 

其 中 , #11, 2, 3, 8) 的 均值 为 3.5, BH 19, 10, 25} 的 均值 为 14. 67。 后 一 个 划分 具 
有 最 小 艇 内 变 差 ， 因 此， 由 于 离 群 点 25 的 缘故 , k- 均值 方法 把 8 分 配 到 不 同 于 9 和 10 所 
在 的 簇 。 此 外 ， 第 二 个 得 中 心 为 14. 67， 显 著 地 偏离 秘 中 的 所 有 成 员 。 = 

“如 何 修 改 上 -均值 算法 ， 降 低 它 对 离 群 点 的 敏感 性 ?”” 我 们 可 以 不 采用 簇 中 对 象 的 均值 
作为 参照 点 ， 而 是 挑选 实际 对 象 来 代表 簇 ， 每 个 簇 使 用 一 个 代表 对 象 。 其 余 的 每 个 对 象 被 分 
配 到 与 其 最 为 相似 的 代表 性 对 象 所 在 的 簇 中 。 于 是 ， 划 分 方法 基于 最 小 化 所 有 对 象 p 与 其 对 
应 的 代表 对 象 之 间 的 相 异 度 之 和 的 原则 来 进行 划分 。 确 切 地 说 ， 使 用 了 一 个 绝对 误差 标准 
(absolute-error criterion) ， 其 定义 如 下 : 











454 








455 


296 + 第 10 章 聚 类 分 析 : 基 本 概念 和 方法 


k 


E = 》 > dist(p,o,) (10. 2) 


其 中 , E 是 数据 集中 所 有 对 象 p 与 C; 的 代表 对 象 o, 的 绝对 误差 之 和 。 这 是 大 - Po (k- 
medoids) 方法 的 基础 。k 一 中 心 点 聚 类 通过 最 小 化 该 绝对 误差 ((10.2) R), En THR 
划分 到 个 簇 中 。 

当 上 =1 it, BTW O(n’) 时 间 内 找 出 准确 的 中 位 数 。 然 而 ， 当 是 一 般 的 正 整 数 
AY, 天- 中心 点 问题 是 NP - 困难 的 。 

围绕 中 心 点 划分 (Partitioning Around Medoids, PAM) 算法 (图 10.5) 是 上 -中心 点 聚 
类 的 一 种 流行 的 实现 。 它 用 克 代 、 贪 心 的 方法 处 理 该 问题 。 与 大- 均值 算法 一 样 ， 初 始 代表 
HA 〈 称 做 种 子 ) 任意 选取 。 我 们 考虑 用 一 个 非 代表 对 象 奉 换 一 个 代表 对 象 是 否 能 够 提高 
聚 类 质量 。 尝 试 所 有 可 能 的 替换 。 继 续 用 其 他 对 象 替换 代表 对 象 的 欠 代 过 程 ， 直 到 结果 聚 类 
的 质量 不 可 能 被 任何 替换 提高 。 质 量 用 对 象 与 其 簇 中 代表 对 象 的 平均 相 异 度 的 代价 函数 
度量 。 

具体 地 说 ， 设 o ，…，o 是 当前 代表 对 象 ( 即 中 心 点 ) 的 和 集合。 为 了 决定 一 个 非 代表 
对 象 Do 是否 是 一 个 当前 中 心 点 o (1<j<k) 的 好 的 替代 ， 我 们 计算 每 个 对 象 p 到 集合 
1015 °°, Oji, Opandoms Ojo 7, 0) 中 最 近 对 象 的 距离 ， 并 使 用 该 距离 更 新 代价 函数 。 
对 象 重 新 分 配 到 |o  ，…， O; i> Qrandom> Oj+1, U’ o) PATA. BRIA p 当前 被 分 
配 到 中 心 点 o 代表 的 簇 中 ( 见 图 10. 4a 或 图 10.4b) 。 在 o BE Optom 置换 后 ,我 们 需要 把 p 
重新 分 配 到 不 同 的 簇 吗 ? 对 象 p 需要 重新 分 配 ， 被 分 配 到 om 或 者 其 他 o,(izj) 代表 的 
ee, 取决 于 哪个 最 近 。 例 如 ， 在 图 10. 4a F, p 离 0; 最 近 ， 因 此 它 被 重新 分 配 到 o, RM, 
在 图 10.4647, p R on 最 近 ， 因 此 它 被 重新 分 配 到 0,6wwm。 要 是 p 当前 被 分 配 到 其 他 对 象 
0i(iz 让 代表 的 簇 中 又 该 怎么 办 ? 只 要 对 象 p 离 0; 还 比 离 oun 更 近 ， 那 么 它 就 仍然 被 分 配 
到 o, RAAB (WA 10. 4c)。 否 则 ，p 被 重新 分 配 到 on (JILE 10. 4d)。 








0, 0, 0; O; 
tee P a, + 0, t 0 0; 
~ 十 十 ”数据 对 象 
Ê 3 + 镇 中 心 
十 pe-+ + -十 一 替换 前 
O random O random O random P O random | ~~~ 替换 后 














a) 重新 分 本 给， D 重新 分 配给 .ww。 O 不 发 生变 化 。 d) 重新 分 配给 0 
图 10.4 一 中 心 点 聚 类 代价 函数 的 4 种 情况 


每 当 重 新 分 配 发 生 时 ,绝对 误差 的 差 对 代价 函数 有 影响 。 因 此 ， 如 果 一 个 当前 的 代 
表 对 象 被 非 代表 对 象 所 取代 ， 则 代价 函数 就 计算 绝对 误差 值 的 差 。 交 换 的 总 代价 是 所 有 非 代 
表 对 象 所 产生 的 代价 之 和 。 如 果 总 代价 为 负 ， 则 实际 的 绝对 误差 已 将 会 减 小 ，o 可 以 被 
Orondom 取代 或 交换 。 如 果 总 代价 为 正 ， 则 认为 当前 的 代表 对 象 w 是 可 接受 的 ， 在 本 次 迭代 中 
没有 变化 发 生 。 

“ 哪 种 方法 更 鲁 棒 ， 上 一 均值 还 是 -中心 点 ?” 当 存在 噪声 和 离 群 点 时 ,一 中 心 点 方法 
比 大 一 均值 更 鲁 棒 ， 这 是 因为 中 心 点 不 像 均 值 那样 容易 受 离 群 点 或 其 他 极端 值 影响 。 然 而 ， 
上 一 中 心 点 算法 的 每 次 迭代 的 复杂 度 是 0(k(n -k)”)。 当 nn 和 所 的 值 较 大 时 ， 这 种 计算 开销 
变 得 相当 大 ， 远 高 于 -均值 方法 。 这 两 种 方法 都 要 求 用 户 指定 簇 数 有。 

“如 何 缩放 上 一 中 心 点 方法 ?” 像 PAM (图 10.5) 这 样 的 典型 的 上 -中心 点 算法 在 
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小 型 数据 集 上 运行 良好 ， 但 是 不 能 很 好 地 用 于 大 数据 集 。 为 了 处 理 大 数据 集 ， 可 以 使 
用 一 种 称 做 CLARA (Clustering LARge Applications， 大 型 应 用 聚 类 ) 的 基于 抽样 的 方 
法 。CLARA 并 不 考虑 整个 数据 集合 ， 而 是 使 用 数据 集 的 一 个 随机 样本 。 然 后 使 用 PAM 
方法 由 样本 计算 最 佳 中 心 点 。 理 论 上 ， 样 本 应 该 近似 地 代表 原 数 据 集 。 在 许多 情况 下 ， 
大 样本 都 很 有 效 ， 如 果 每 个 对 象 都 以 相同 的 概率 被 选 到 样本 中 的 话 。 被 选中 的 代表 对 
象 (中 心 点 ) 非常 类 似 于 从 整个 数据 集 选 取 的 中 心 点 。CLARA 由 多 个 随机 样本 建立 聚 
类 ， 并 返回 最 佳 的 聚 类 作为 输出 。 在 一 个 随机 样本 上 计算 中 心 点 的 复杂 度 为 0O(ks* +k 
(了 -8))， 其 中 * 是 样本 的 大 小 , PRM, Tn 是 对 象 的 总 数 。CLARA 能 够 处 理 的 数 
据 集 比 PAM 更 大 。 


算法 : k- 中 心 点 。PAM， 一 种 基于 中 心 点 或 中 心 对 象 进行 划分 的 大 中 心虚 算法 。 
输入 : 
ok: 结果 灸 的 个 数 。 
。 D: 包含 x 个 对 象 的 数据 集合 。 
输出 : TERRA 
方法 : 
d) 从 D 中 随机 选择 k 个 对 象 作为 初始 的 代表 对 象 或 种 子 ; 
(2) repeat 
(3) EPMA ATR 5D LN UE RT TRB 
(4) 随机 地 选择 一 个 非 代 表 对 象 oouw; 
(5) 计算 用 owwwom 代 替代 表 对 象 , 的 总 代价 S; 
(6) if S<0, then own 替换 w， 形 成 新 的 k 个 代表 对 象 的 集合 ; 
(7) mnt 不 发 生变 化 ; 














图 10.5 PAM, 一 种 一 中 心 点 划分 算法 


CLARA 的 有 效 性 依赖 于 样本 的 大 小 。 注 意 ，PAM 在 给 定 的 数据 集 上 搜索 上 个 最 佳 中 心 
点 ， 而 CLARA 在 数据 集 选取 的 样本 上 搜索 个 最 佳 中 心 点 。 如 果 最 佳 的 抽样 中 心 点 都 远离 
最 佳 的 上 个 中 心 点 ， 则 CLARA 不 可 能 发 现 好 的 聚 类 。 如 果 一 个 对 象 是 个 最 佳 中 心 点 之 一 ， 
但 它 在 抽样 时 没有 被 选中 ， 则 CLARA 将 永远 不 能 找到 最 佳 聚 类 。 (作为 习题 ， 请 你 给 出 一 
个 例子 解释 这 一 点 。) 

“如 何 改 进 CLARA 的 聚 类 质量 和 可 伸缩 性 ?” 回 忆 一 下 ， 在 搜索 最 佳 中 心 点 时 ，PAM 针 
对 每 个 当前 中 心 点 考察 数据 集 的 每 个 对 象 ， 而 CLARA 把 候选 中 心 点 仅 局 限 在 数据 集 的 一 个 
随机 样本 上 。 一 种 称 做 CLARANS ( Clustering Large Application based upon RANdomized 
Search， 基 于 随机 搜索 的 聚 类 大 型 应 用 ) 的 随机 算法 可 以 在 使 用 样本 得 到 聚 类 的 开销 和 有 效 
性 之 间 权 衡 。 

首先 ， 它 在 数据 集中 随机 选择 个 对 象 作 为 当前 中 心 点 。 然 后 ， 它 随机 地 选择 一 个 
当前 中 心 点 x 和 一 个 不 是 当前 中 心 点 的 对 象 y。 用 y BR x 能 够 改善 绝对 误差 吗 ? 如 果 
能 ， 则 进行 替换 。CLARANS 进行 这 种 随机 搜索 1 次 。i! 步 之 后 的 中 心 点 的 集合 被 看 做 一 
个 局 部 最 优 解 。CLARANS 重复 以 上 随机 过 程 m 次 ,并 返回 最 佳 局 部 最 优 解 作为 最 终 的 
结果 。 


10.3 层次 方法 
尽管 划分 方法 满足 把 对 象 集 划分 成 一 些 互 斥 的 组 群 的 基本 聚 类 要 求 ， 但 是 在 某 些 情况 
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下 ， 我 们 想 把 数据 划分 成 不 同 层 上 的 组 群 ， 如 层次 。 层 次 聚 类 方法 (hierarchical clustering 
method) 将 数据 对 象 组 成 层次 结构 或 徐 的 “ 树 ”。 

对 于 数据 汇总 和 可 视 化 ， 用 层次 结构 的 形式 表示 数据 对 象 是 有 用 的 。 例 如 ， 作 为 AL- 
IElectronics 的 人 力 资 源 部 经 理 ， 你 可 以 把 你 的 雇员 组 织 成 较 大 的 组 群 ， 如 主管 、 经 理 和 职 
员 。 你 可 以 把 这 些 组 进一步 划分 为 较 小 的 子 组 群 。 例 如 ， 一 般 的 职员 组 可 以 进一步 划分 成 子 
组 群 : 高 级 职员 、 职 员 和 实习 人 员 。 所 有 这 些 组 群 形成 了 一 个 层次 结构 。 我 们 可 以 很 容易 地 
对 组 织 在 层次 结构 中 的 数据 进行 汇总 或 特征 化 。 这 样 的 数据 组 织 可 以 用 来 发 现 诸如 经 理 的 平 
均 工资 和 职员 的 平均 工资 。 

作为 另 一 个 例子 ， 考 虑 手写 字符 识别 。 手 写字 符 样本 集 可 以 先 划分 成 一 般 的 组 群 ， 其 中 
每 个 群 组 对 应 于 一 个 唯一 的 字符 。 某 些 组 群 可 以 进一步 划分 成 子 组 群 ， 因 为 一 个 字符 可 能 有 
多 种 显著 不 同 的 写法 。 如 果 需 要 ， 层 次 划分 可 以 递归 继续 ， 直 到 达到 期 望 的 粒度 。 

在 前 面 的 例子 中 ， 尽 管 我 们 层次 地 划分 数据 ， 但 是 我 们 并 未 假定 数据 具有 层次 结构 
(例如 ， 在 我 们 的 AllElectronics 的 层次 结构 中 ， 经 理 与 职员 在 相同 的 层 )。 这 里 ， 我 们 使 用 
层次 结构 只 是 以 压缩 的 形式 汇总 和 提供 底层 数据 。 这 种 层次 结构 对 于 数据 可 视 化 特别 有 用 。 

男 外 ， 在 某 些 应 用 中 ， 我 们 也 可 能 相信 数据 具有 一 个 我 们 想 要 发 现 的 基本 层次 结构 。 例 
如 ， 层 次 聚 类 可 能 揭示 AllElectronics 雇员 在 收入 上 的 分 层 结 构 。 在 进化 研究 中 ， 层 次 聚 类 可 
以 按 动 物 的 生物 学 特征 对 它们 分 组 ， 发 现 进化 路 径 ， 即 物种 的 分 层 结构 。 再 如 ， 用 层次 方法 
对 战略 游戏 (如 国际 象棋 和 西洋 跳棋 ) 进行 布局 聚 类 可 以 帮助 开发 用 于 训练 棋 手 的 游戏 
战略 。 

本 节 ， 我 们 将 学 习 层次 聚 类 方法 。10. 3. 1 节 从 凝聚 和 分 裂 层 次 聚 类 的 讨论 开始 。 凝 聚 
和 分 裂 层 次 聚 类 分 别 使 用 自 底 向 上 和 自 顶 向 下 策略 把 对 象 组 织 到 层次 结构 中 。 凝 聚 方法 从 每 
个 对 象 都 作为 一 个 入 开 始 ， 适 代 地 合并 ， 形 成 更 大 的 能 。 与 此 相反 ， 分 裂 方法 开始 令 所 有 给 
定 的 对 象形 成 一 个 笠 ， 和 迭代 地 分 裂 ， 形 成 较 小 的 复 。 

层次 聚 类 方法 可 能 在 合并 或 分 裂 点 的 选择 方法 上 遇 到 困难 。 这 种 决定 是 至 关 重 要 的 ， 因 
为 一 旦 对 象 的 组 群 被 合并 或 被 分 裂 ， 则 下 一 步 处理 将 在 新 产生 的 能 上 进行 。 它 既 不 会 撤销 先 
前 所 做 工作 ， 也 不 会 在 簇 之 间 进 行 对 象 交换 。 因 此 ， 如 果 合 并 或 分 裂 选 择 不 当 ， 则 可 能 导致 
低 质量 的 徐 。 此 外 ， 这 些 方法 不 具有 很 好 的 可 伸缩 性 ， 因 为 每 次 合并 或 分 裂 的 决定 都 需要 考 
察 和 评估 许多 对 象 或 簇 。 

一 种 提高 层次 方法 限 类 质量 的 有 希望 的 方向 是 集成 层次 聚 类 与 其 他 聚 类 技术 ， 形 成 多 阶 
段 聚 类 。 我 们 介绍 两 种 这 样 的 方法 ， 即 BIRCH 和 Chameleon, BIRCH (10.3.3 节 ) 从 使 用 
树 结构 分 层 划 分 对 象 开始 ， 其 中 树叶 和 低层 结 点 可 以 看 做 “ 微 秘 " ， 依 赖 于 分 辨 率 的 尺度 。 
然后 ， 它 使 用 其 他 聚 类 算法 ， 在 这 些微 能 上 进行 宏 聚 类 。Chameleon (10.3.4 节 ) 探索 层次 
RAE PHASER, 

存在 多 种 方法 对 层次 聚 类 方法 进行 分 类 。 例 如 ， 它 们 可 分 为 算法 方法 、 概 率 方法 和 贝 叶 
斯 方法 。 凝 聚 、 分 裂 和 多 阶段 方法 都 是 算法 的 ， 即 它们 都 将 数据 对 象 看 做 确定 性 的 ， 并 且 根 
据 对 象 之 间 的 确定 性 的 距离 计算 徐 。 概 率 方法 使 用 概率 模型 捕获 化， 并 且 根 据 模型 的 拟 合 度 
度量 艇 的 质量 。 我 们 在 10. 3. 5 节 讨 论 概率 层次 聚 类 。 贝 叶 斯 方法 计算 可 能 的 聚 类 的 分 布 ， 
即 它们 返回 给 定数 据 上 的 一 组 聚 类 结构 和 它们 的 概率 、 条 件 ， 而 不 是 输出 数据 集 上 的 单个 确 
定性 的 聚 类 。 贝 叶 斯 方法 作为 高 级 课题 ， 不 在 本 书 讨论 。 


10.3.1 凝聚 的 与 分 裂 的 层次 聚 类 
层次 聚 类 方法 可 以 是 凝聚 的 或 分 裂 的 ， 取 决 于 层次 分 解 是 以 自 底 向 上 (合并 ) 还 是 以 
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自 顶 向 下 〈 分 裂 ) 方式 形成 。 让 我 们 更 深入 地 考察 这 些 策略 。 

凝聚 的 层次 聚 类 方法 使 用 自 底 向 上 的 策略 。 典 型 地 ， 它 从 令 每 个 对 象形 成 自己 的 簇 开 
始 ， 并 且 选 代 地 把 簇 合 并 成 越 来 越 大 的 化， 直到 所 有 的 对 象 都 在 一 个 簇 中 ， 或 者 满足 某 个 终 
止 条 件 。 该 单个 复 成 为 层次 结构 的 根 。 在 合并 步骤 ， 它 找 出 两 个 最 接近 的 复 (根据 某 种 相 
似 性 度量 ) ， 并 且 合 并 它们 ， 形 成 一 个 簇 。 因 为 每 次 迁 代 合并 两 个 艇 ， 其 中 每 个 复 至 少 包 含 
一 个 对 象 ， 因 此 凝聚 方法 最 多 需要 次 迭代 。 

分 型 的 层次 聚 类 方法 使 用 自 顶 向 下 的 策略 。 它 从 把 所 有 对 象 置 于 一 个 能 中 开始 ， 该 能 是 
层次 结构 的 根 。 然 后 ， 它 把 根 上 的 艇 划分 成 多 个 较 小 的 子 簇 ， 并 且 弟 归 地 把 这 些 簇 划 分 成 更 
小 的 能 。 划 分 过 程 继续 ， 直 到 最 底层 的 能 都 足够 凝聚 一 或 者 仅 包 含 一 个 对 象 ， 或 者 篮 内 的 
对 象 彼此 都 充分 相似 。 

在 凝聚 或 分 裂 聚 类 中 ， 用 户 都 可 以 指定 期 望 的 能 个 数 作 为 终止 条 件 。 

例 10.3 凝聚 的 与 分 裂 的 层次 聚 类 。 图 10. 6 显示 了 一 种 凝聚 的 层次 聚 类 算法 AGNES 
( Agglomerative NESting) 和 一 种 分 裂 的 层次 聚 类 算法 DIANA (Divisive ANAlysis) 在 一 个 包 
含 五 个 对 象 的 数据 集 la, b, c, d, e) 上 的 处 理 过 程 。 初 始 ， 凝 聚 方法 AGNES 将 每 个 对 
象 自 成 一 艇 ， 然 后 这 些 秘 根据 某 种 准则 和 逐步 合并 。 例 如 ， 如 果 艇 C, 中 的 一 个 对 象 和 簇 C p 
的 一 个 对 象 之 间 的 距离 是 所 有 属于 不 同 徐 的 对 象 间 欧 氏 距 离 中 最 小 的 ， 则 C, 和 C, 可 能 被 合 
并 。 这 是 一 种 单 链接 (single-linkoge) 方法 ， 因 为 每 个 能 都 用 能 中 所 有 对 象 代 表 ， 而 两 个 签 
之 间 的 相似 度 用 不 同 簇 中 最 近 的 数据 点 对 的 相似 度 来 度量 。 筷 合并 过 程 反复 进行 ， 直 到 所 有 
的 对 象 最 终 合并 形成 一 个 簇 。 
ome om om sm sw 





BEE 
(AGNES) 








a ee ee ee T 分 裂 的 
步骤 4 RS Ml PRL ”步骤 0 (DIANA) 


图 10.6 数据 对 象 ja, b, c, d, e) 的 凝聚 和 分 裂 层 次 聚 类 


分 裂 方法 DIANA 以 相反 的 方法 处 理 。 所 有 的 对 象形 成 一 个 初始 秘 ， 根 据 某 种 原则 (如 
秘 中 最 近 的 相 邻 对 象 的 最 大 欧 氏 距离 )， 将 该 秘 分 裂 。 簇 的 分 裂 过 程 反 复 进行 ， 直 到 最 终 每 
个 新 的 簇 只 包含 一 个 对 象 。 m 

通常 ， 使 用 一 种 称 做 树 状 图 (dendrogram) 的 树 形 结构 来 表示 层次 聚 类 的 过 程 。 它 展示 
对 象 是 如 何 一 步 一 步 被 分 组 聚集 (在 凝聚 方法 中 ) 或 划分 〈 在 分 裂 方法 中 ) 。 图 10.7 显示 
图 10. 6 中 的 5 个 对 象 的 树 状 图 ， 其 中 ，! = 0 显示 在 第 0 层 5 个 对 象 都 作为 单元 素 能 。 在 1= 
1， 对 象 a 和 5 被 案 在 一 起 形成 第 一 个 徐 ， 并 且 它 们 在 后 续 各 层 一 直 在 一 起 。 我 们 还 可 以 用 
一 个 垂直 的 数 轴 来 显示 秘 间 的 相似 尺度 。 例 如 ， 当 两 组 对 象 ja, b} 和 fe, d, e} 的 相似 
度 大 约 为 0.16 时 ,它们 被 合并 形成 一 个 簇 。 
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图 10.7 数据 对 象 ja, b, c, d, e) 的 层次 聚 类 的 树 状 图 表示 


分 裂 方法 的 一 个 挑战 是 如 何 把 一 个 大 艇 划分 成 几 个 较 小 的 徐 。 例 如 ， 把 nn 个 对 象 的 集合 
划分 成 两 个 互 斥 的 子 集 有 2"” -1 种 可 能 的 方法 ， 其 中 是 对 象 数 。 当 nn 很 大 时 ， 考 察 所 有 
的 可 能 性 的 计算 量 是 令 人 望而却步 的 。 因 此 ， 分 裂 方法 通常 使 用 局 发 式 方法 进行 划分 ， 但 可 
能 导致 不 精确 的 结果 。 为 了 效率 ,分裂 方法 通常 不 对 已 经 做 出 的 划分 决策 回溯 一旦 一 个 簇 
被 划分 ， 该 簇 的 任何 可 供 选 择 其 他 划分 都 不 再 考虑 。 由 于 分 裂 方 法 的 这 一 特点 ,凝聚 方法 远 
比分 裂 方 法 多 。 


10.3.2 算法 方法 的 距离 度量 


无 论 使 用 凝聚 方法 还 是 使 用 分 裂 方 法 ,一 个 核心 问题 是 度量 两 个 簇 之 间 的 距离 ， 其 中 每 
AMR MEE POR 

4 个 广泛 采用 的 簇 间距 离 度量 方法 如 下 ， 其 中 | p -p | 是 两 个 对 象 或 点 已 和 已 之 间 的 距离 ， 
m, 是 能 C 的 均值 ， 而 n BRC, 中 对 象 的 数目 。 这 些 度量 又 称 连 接 度量 (linkage measure), 


最 小 距离 :distw (CC) = min | |p -p'| | (10.3) 

最 大 距离 :dist (Ci,C) = max {|p-p'|} (10. 4) 
peCip eG 

均值 距离 :disi,(Ci,C) = |m; - m, | (10. 5) 

IGE dista (CC) => Y |p-p'| (10.6) 
TN; peip eC 


当 算 法 使 用 最 小 距离 dist,, ( C;，C;) 来 衡量 簇 间 距离 时 ， 有 时 称 它 为 最 近邻 聚 类 算法 
(nearest-neighbor clustering algorithm) 。 此 外 ， 如 果 当 最 近 的 两 个 簇 之 间 的 距离 超过 用 户 给 定 
的 阅 值 时 聚 类 过 程 就 会 终止 ， 则 称 其 为 单 连接 算法 (single- linkage algorithm) 。 如 果 我 们 把 
数据 点 看 做 图 的 结 点 ， 图 中 的 边 构 成 能 内 结 点 间 的 路 径 ， 那 么 两 个 簇 C; 和 Ci; 的 合并 就 对 应 
FPE C, 和 C, 的 最 近 的 一 对 结 点 之 间 添 加 一 条 边 。 由 于 连接 簇 的 边 总 是 从 一 个 簇 通 向 另 一 个 
徐 ， 结 果 图 将 形成 一 棵 树 。 因 此 ， 使 用 最 小 距离 度量 的 凝聚 层次 聚 类 算法 也 被 称 为 最 小 生成 
树 算法 (minimal spanning tree algorithm) ， 其 中 图 的 生成 树 是 一 棵 连接 所 有 结 点 的 树 ， 而 最 
小 生成 树 是 具有 最 小 边 权 重 和 的 生成 树 。 

当 一 个 算法 使 用 最 大 距离 dist,,,( C;，C;) 来 度量 艇 间距 离 时 ， 有 时 称 它 为 最 远 邻 聚 类 
算法 (farthest- neighbor clustering algorithm) 。 如 果 当 最 近 的 两 个 得 之 间 的 最 大 距离 超过 用 户 
给 定 的 阐 值 时 聚 类 过 程 便 终止 ， 则 称 其 为 全 连接 算法 (complete-linkage algorithm) 。 通 过 把 
数据 点 看 做 图 中 的 结 点 ， 用 边 来 连接 结 点 ， 我 们 可 以 把 每 个 艇 看 成 是 一 个 完全 子 图 ， 也 就 是 
说 ， 簇 中 所 有 结 点 都 有 边 来 连接 。 两 个 秘 间 的 距离 由 两 个 徐 中 距离 最 远 的 结 点 间 的 距离 确 
定 。 最 远 邻 算法 试图 在 每 次 欠 代 中 尽 可 能 少 地 增加 得 的 直径 。 如 果真 实 的 篮 较 为 紧凑 并 且 大 
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小 近似 相等 ， 则 这 种 方法 将 会 产生 高 质量 的 和 能， 否则 产生 的 能 可 能 之 无 意义 。 

以 上 最 小 和 最 大 距离 度量 代表 了 簇 间 距离 度量 的 两 个 极端 。 它 们 趋向 对 离 群 点 或 品 声 数 
据 过 分 敏感 。 使 用 均值 距离 或 平均 距离 是 对 最 小 和 最 大 距离 之 间 的 一 种 折 中 方法 ， 并 且 可 以 
克服 离 群 点 敏感 性 问题 。 尽 管 均值 距离 计算 最 简单 ， 但 是 平均 距离 也 有 它 的 优势 ， 因 为 它 既 
能 处 理 数值 数据 又 能 处 理 分 类 数据 。 分 类 数据 的 均值 向 量 可 能 很 难 计算 或 者 根本 无 法 定义 。 

例 10.4 单 连接 与 全 连接 。 我 们 把 层次 聚 类 应 用 于 如 图 10. 8a 所 示 的 数据 集 。 图 10. 8b 
显示 使 用 单 连接 的 树 状 图 。 图 10. 8c 显示 使 用 全 连接 的 情况 ， 其 中 为 了 显示 简单 ， 省 略 了 簇 
14, B, J, Hl Mic, D, G, F, El 之 间 的 边 。 该 例 表 明 ， 通 过 单 连接 ， 我 们 可 以 发 现 


由 局 部 邻近 性 定义 的 分 层 的 徐 ， 而 全 连接 则 趋向 发 现 由 全 局 邻近 性 选择 的 簇 。 a 
A B C D 
© © o © 
@E 
o oo 
J H G F 
a) 数据 集 
A B C D 
ee 
J H G F A B C D EFGHI 


©) 使 用 全 连接 聚 类 
图 10.8 使 用 单 连接 聚 类 和 全 连接 聚 类 


以 上 4 种 基本 连接 度量 有 一 些 变形 。 例 如 ， 我 们 可 以 用 艇 形 心 〈 即 中 心 对 象 ) 之 间 的 
距离 度量 两 个 徐 之 间 的 距离 。 


10.3.3 BIRCH, 使 用 聚 类 特征 树 的 多 阶段 聚 类 


利用 层次 结构 的 平衡 迁 代 归 约 和 聚 类 (Balanced Iterative Reducing and Clustering using 
Hierarchies, BIRCH) 是 为 大 量 数值 数据 聚 类 设计 的 ， 它 将 层次 聚 类 (CEMA RAE) 
与 诸如 迭代 地 划分 这 样 的 其 他 聚 类 算法 (在 其 后 的 宏 聚 类 阶段 ) 集 成 在 一 起 。 它 克服 了 凝 
聚 聚 类 方法 所 面临 的 两 个 困难 : (1) 可 伸缩 性 ; (2) 不 能 撤销 先前 步骤 所 做 的 工作 。 

BIRCH 使 用 聚 类 特征 来 概括 一 个 能 ， 使 用 聚 类 特征 树 (CF- 树 ) 来 表示 聚 类 的 层次 结 
构 。 这 些 结构 帮助 聚 类 方法 在 大 型 数据 库 甚 至 在 流 数据 库 中 取得 好 的 速度 和 伸缩 性 ， 还 使 得 
BIRCH 方法 对 新 对 象 增 量 或 动态 聚 类 也 非常 有 效 。 

考虑 一 个 ”个 4 维 的 数据 对 象 或 点 的 侯 。 和 能 的 聚 类 特征 (Clustering Feature, CF) 是 一 
个 3 维 向 量 ， 汇 总 了 对 象 艇 的 信息 ， 定 义 如 下 
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CF = (n,LS,SS) (10. 7) 


JUP, LS Èn 个 点 的 线性 和 CRD x), ， 而 SS 是 数据 点 的 平方 和 (M Y 22). 


聚 类 特征 本 质 上 是 给 定 艇 的 统计 汇总 。 使 用 聚 类 特征 ， 我 们 可 以 很 容易 地 推导 出 簇 的 许 
多 有 用 的 统计 量 。 例 如 ， 艇 的 形 心 za、 半径 丸和 直径 万 分 别 是 


(10. 8) 











(10. 9) 


n 


- [22s — 24S. (10. 10) 
其 中 ，R 是 成 员 对 象 到 形 心 的 平均 距离 ，D 是 簇 中 逐 对 对 象 的 平均 距离 。R 和 D 都 反映 了 形 
心 周围 簇 的 紧凑 程度 。 

使 用 聚 类 特征 概括 艇 可 以 避免 存储 个 体 对 象 或 点 的 详细 信息 。 我 们 只 需要 固定 大 小 的 空 
间 来 存放 聚 类 特征 。 这 是 空间 中 BIRCH 有 效 性 的 关键 。 此 外 ， 聚 类 特征 是 可 加 的 。 也 就 是 
说 ， 对 于 两 个 不 相交 的 簇 C 和 C: ， 其 聚 类 特征 分 别 为 CF =(n,, LS, SS,) ACF, =(n,, 
LS ，$$:)》 ， 合 并 C 和 C, ARR BARE RB 
CF, + CF, = (n, +n,,LS, + LS,,SS, + SS,) (10. 11) 
例 10. 5 RARE. Bk C, 有 三 个 点 (2, 5), (3, 2) 和 (4, 3). C 的 聚 类 特征 是 
CF, = (3,(2 +3 +4,5 +2 +3),(2 +3? +4,5 +2? +37)) = (3,(9,10) ,(29,38)) 
假设 C, 和 另 一 个 簇 C, 是 不 相交 的 ， 其 中 CF, =(3, (35, 36), (417, 440)), C, IC, & 
并 之 后 形成 一 个 新 的 焦 C, ， 其 聚 类 特征 便 是 CF, 和 CF, Zm, B 
CF, = (3 +3,(9 +35),(10 +36),(29 +417,38 + 440)) = (6,(44,46),(446,478)) E 
CEF- 树 是 一 棵 高 度 平衡 的 树 ， 它 存储 了 层次 聚 类 的 聚 类 特征 。 图 10. 9 给 出 了 一 个 例子 。 
根据 定义 ， 树 中 的 非 叶 结 点 都 有 后 代 或 “子女 ”。 非 叶 结 点 存储 了 其 子女 的 CF 的 总 和 ， 因 
而 汇总 了 关于 其 子女 的 聚 类 信息 。CF- 树 有 两 个 参数 : DLAT BARET, SLATE 
了 每 个 非 叶 结 点 的 子女 的 最 大 数目 ， 而 阔 值 参数 给 出 了 存储 在 树 的 叶 结 点 中 的 子 艇 的 最 大 直 
径 。 这 两 个 参数 影响 结果 树 的 大 小 。 


Z 2 
2, (x; = xo) F f= "21S? + nLS 
一 2 














图 10.9 CF- 树 结构 


给 定 有 限 的 主 存 ，BIRCH 一 个 重要 的 考虑 是 最 小 化 VO 时 间 。BIRCH 采用 了 一 种 多 阶 
段 聚 类 技术 : 数据 集 的 单 遍 扫描 产生 一 个 基本 的 好 聚 类 ， 而 一 或 多 遍 的 额外 扫描 可 以 进一步 


第 10 章 BED: 基本 概念 和 方法 ， 303 


地 改进 聚 类 质量 。 它 主要 包括 两 个 阶段 : 
。 阶段 一 : BIRCH 扫描 数据 库 ， 建 立 一 棵 存放 于 内 存 的 初始 CF- 树 ， 它 可 以 被 看 做 数 
据 的 多 层 压缩 ， 试 图 保留 数据 的 内 在 从 类 结构 。 
。 阶段 二 : BIRCH 采用 某 个 〈 选 定 的 ) 聚 类 算法 对 CF MMM AMET RA, IH 
的 复 当 做 离 群 点 删除 ， 而 把 稠密 的 侯 合 并 为 更 大 的 复 。 
在 阶段 一 中 ， 随 着 对 象 被 插 和 人 ，CF- 树 被 动态 地 构造 。 这 样 ， 该 方法 支持 增 量 聚 类 。 一 
个 对 象 被 插入 到 最 近 的 叶 条 目 ( 子 徐 )。 如 果 在 插入 后 ， 存 储 在 叶 结 点 中 的 子 秘 的 直径 大 于 
阔 值 ， 则 该 叶 结 点 和 可 能 的 其 他 结 点 被 分 裂 。 新 对 象 插 人 后 ， 关 于 该 对 象 的 信息 向 树 根 结 点 
传递 。 通 过 修改 立 值 ，CF- 树 的 大 小 可 以 改变 。 如 果 存 储 CF- 树 需要 的 内 存 大 于 主 存 的 大 小 ， 
可 以 定义 较 大 的 阐 值 ， 并 重建 CF- 树 。 
重建 过 程 从 旧 树 的 叶 结 点 构建 一 棵 新 树 。 这 样 ， 重 建树 的 过 程 不 需要 重读 所 有 的 对 象 或 
点 。 这 类 似 于 B + 树 构建 中 的 插 人 和 结 点 分 裂 。 因 此 ， 为 了 建树 ， 只 需 读 一 次 数据 。 采 用 一 
些 启发 式 方法 ， 通 过 额外 的 数据 扫描 来 处 理 离 群 点 和 改进 CF- 树 的 质量 。CF- 树 建 好 后 ， 可 
以 在 阶段 二 使 用 任意 聚 类 算法 ， 例 如 典型 的 划分 方法 。 
“BIRCH 的 有 效 性 如 何 ?” 该 算法 的 时 间 复 杂 度 是 O(a) ， 其 中 了 是 被 聚 类 的 对 象 数 。 实 
验 表 明 该 算法 关于 对 象 数 是 线性 可 伸缩 的 ， 并 且 具 有 较 好 的 数据 聚 类 质量 。 然 而 ， 既 然 CF- 
树 的 每 个 结 点 由 于 大 小 限制 只 能 包含 有 限 的 条 目 ， 一 个 CF- 树 结 点 并 不 总 是 对 应 于 用 户 认为 
的 一 个 自然 艇 。 上 此外， 如果 簇 不 是 球形 的 ， 则 BIRCH 不 能 很 好 地 工作 ， 因 为 它 使 用 半径 或 








直径 的 概念 来 控制 簇 的 边界 。 
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聚 类 特征 和 CF- 树 的 概念 的 应 用 已 经 超越 BIRCH， 这 一 思想 已 经 被 许多 其 他 聚 类 算法 借 
用 以 处 理 聚 类 流 数据 和 动态 数据 问题 。 


10.3.4 Chameleon: 使 用 动态 建 模 的 多 阶段 层次 聚 类 

Chameleon (变色 龙 ) 是 一 种 层次 陵 类 算法 ， 它 采用 动态 建 模 来 确定 一 对 簇 之 间 的 相似 
度 。 在 Chameleon 中 ， 徐 的 相似 度 依据 如 下 两 点 评估 : (1) 簇 中 对 象 的 连接 情况 ; (2) R 
的 邻近 性 。 也 就 是 说 ， 如 果 两 个 复 的 互 连 性 都 很 高 并 日 它们 之 间 又 靠 得 很 近 就 将 其 合并 。 这 
E, Chameleon 就 不 用 依赖 于 一 个 静态 的 、 用 户 提供 的 模型 ， 能 够 自动 地 适应 被 合并 簇 的 内 
部 特征 。 这 一 合并 过 程 有 利于 发 现 自 然 、 同 构 的 复 ， 并 且 只 要 定义 了 相似 度 函 数 就 可 应 用 于 
所 有 类 型 的 数据 。 

图 10. 10 解释 Chameleon 如 何 运 作 。Chameleon 采用 上 - 最 近邻 图 的 方法 来 构建 一 个 稀 朴 
图 ; 其 中 ， 图 的 每 个 顶点 代表 一 个 数据 对 象 ， 如 果 一 个 对 象 是 男 一 个 对 象 的 个 最 相似 的 对 
象 之 一 ， 那 么 这 两 个 顶点 (对 象 ) 之 间 就 存在 一 条 边 。 这 些 边 加 权 后 反映 对 象 间 的 相似 度 。 
Chameleon 使 用 一 种 图 划分 算法 ， 把 -最 近邻 图 划分 成 大 量 相对 较 小 的 子 徐 ， 使 得 边 荐 最 
小 。 也 就 是 说 ,， 簇 C 被 划分 成 子 能 C 和 C)， 使 得 把 C 二 分 成 C; 和 C 而 被 切断 的 边 的 权重 
ZA). EDR C, 和 C 之 间 的 绝对 互 连 性 。 

上 最 近邻 图 最 终 的 聚 类 


数据 集 
= 构造 稀 朴 图 划分 图 me ga 合并 分 区 IA 
v E 


9 


图 10.10 Chameleon; 26-7 k- 最 近邻 和 动态 建 模 的 层次 聚 类 。 取 自 Karypis, Han 和 Kumar[ KHK99 ] 
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然后 ，Chameleon 使 用 一 种 凝聚 层次 聚 类 算法 ， 其 基于 子 簇 的 相似 度 反 复 地 合并 子 簇 。 
为 了 确定 最 相似 的 子 簇 对 ， 它 既 考 虑 每 个 艇 的 互 连 性 ， 又 考虑 艇 的 邻近 性 (closeness), E 
确切 地 说 ，Chameleon 根据 两 个 入 C, FC, 的 相对 互 连 度 RIC, C) 和 相对 接近 度 RC(C,, 
C) 来 决定 它们 的 相似 度 : 
。 BIT C FC, 的 相对 互 连 度 应 (C;，C;) 定义 为 C; AC 之 间 的 绝对 互 连 度 关于 两 
ME C, ALC, 的 内 部 互 连 度 的 规范 化 ， 即 
| EC icc, | 





RICC,,C,) = (10. 12) 


o L| ECa |+ | BC, |) 
其 中 ，ECic.c 是 包含 C; 和 C KERAN, In LMM MIM, MLM, EC 
(BE EC.) EHC (RO) 划分 成 大 致 相等 的 两 部 分 的 割 边 的 最 小 和 。 
。 PIME C AIC, 的 相对 接近 度 RC(C,, C) 定义 为 C; 和 C 之 间 的 绝对 接近 度 关于 两 
ANB C FC; 的 内 部 接近 度 的 规范 化 ， 定 义 如 下 : 
eq A 
C, 一 C. Z 
Teta [e 15% + Te Ta Te T 
FOP, Stoo. 是 连接 C; 顶点 和 G 顶点 的 边 的 平均 权重 ， Secu (Seco) 是 最 小 二 分 入 
CCRC) 的 边 的 平均 权重 。 
业已 发 现 ， 与 一 些 著名 的 算法 (如 BIRCH 和 基于 密度 的 DBSCAN (10.4.1 节 ) ) 相 比 ， 
Chameleon 在 发 现 高 质量 的 任意 形状 的 能 方面 具有 更 强 的 能 力 。 然 而 ， 在 最 坏 的 情况 下 ,高 
维 数据 的 处 理 代价 可 能 需要 O(n?) 的 时 间 ， 其 中 站 是 对 象 个 数 。 


10.3.5 ”概率 层次 聚 类 


算法 的 层次 聚 类 方法 使 用 连接 度量 ， 往 往 使 得 聚 类 容易 理解 并 且 有 效 。 它 们 广 涝 用 
在 许多 聚 类 分 析 应 用 中 。 然 而 ， 算 法 的 层次 聚 类 方法 也 有 一 些 缺 点 。 第 一 ， 为 层次 聚 
类 选择 一 种 好 的 距离 度量 常常 是 困难 的 。 第 二 ， 为 了 使 用 算法 的 方法 ， 数 据 对 象 不 能 
有 缺失 的 属性 值 。 在 数据 被 部 分 地 观测 的 情况 下 〈 即 某 些 对 象 的 某 些 属性 值 缺失 ) ， 由 
于 距离 计算 无 法 进行 ， 因 此 很 难 使 用 算法 的 层次 聚 类 方法 。 第 三 ， 大 部 分 算法 的 层次 
育 类 方法 都 是 启发 式 的 ， 在 每 一 步 局 部 地 搜索 好 的 合并 /划分 。 因 此 ， 结 果 聚 类 层次 结 
构 的 优化 目标 可 能 不 清晰 。 

概率 层次 聚 类 (probabilistic hierarchical clustering ) 旨 在 通过 使 用 概率 模型 度量 得 之 间 
的 距离 ， 克 服 以 上 某 些 缺 点 。 

一 种 看 待 聚 类 问题 的 方法 是 ， 把 待 育 类 的 数据 对 象 集 看 做 要 分 析 的 基础 数据 生成 机 制 的 
一 个 样本 ， 或 生成 模型 (generative model) 。 例 如 ， 在 对 市 场 调查 数据 进行 聚 类 分 析 时 ， 我 
们 假定 收集 的 调查 资料 是 所 有 可 能 顾客 意见 的 一 个 样本 。 这 里 ， 数 据 生成 机 制 是 关于 不 同 顾 
客 意见 的 概率 分 布 ， 不 可 能 直接 和 完整 地 得 到 。 聚 类 的 任务 是 使 用 待 聚 类 的 观测 数据 对 象 ， 
尽 可 能 准确 地 估计 该 生成 模型 。 

实践 中 ， 我 们 可 以 假定 该 数据 的 生成 模型 采用 常见 的 分 布 函数 ， 如 高 斯 分 布 或 伯 努 利 分 
布 ， 它 们 由 参数 确定 。 于 是 ， 学 习 生 成 模型 的 任务 就 归结 为 找 出 使 得 模型 最 佳 拟 合 观测 数据 


RC( C;,C;) = 





(10. 13) 
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集 的 参数 值 。 
例 10.6 ERRE, Bie TRAD WRB X= |x!，…，x,}。 我 们 假定 


这 些 数 据点 被 高 斯 分 布 











N(u,0) = — =e (10. 14) 
217 
生成 ， 其 中 参数 是 (均值 ) Alo’ (方差 ) 。 
TH, Wx, e 半 被 该 模型 生成 的 概率 为 
P(«;|p,0°) = I e (10. 15) 
TO 


于 是 ，X 被 该 模型 生成 的 似 然 为 





LON (p02) :X) = P(X lu) = — e 10. 16 
(N (p,0°) :X) (X |,o°) II V ( ) 
学 习 该 生成 模型 的 任务 是 找 出 参数 人 Alo’, (EEA LN u, o): X) 最 大 ， 即 找 出 
N(p,0%) = arg max|L(N(p,o°)) :X} | (10. 17) 
Hep, max |L (N (u, °): X)} 称 做 最 大 似 然 。 a 


给 定 一 个 对 象 集 ， 由 所 有 对 象形 成 的 艇 的 质量 可 以 用 最 大 似 然 度量 。 对 于 划分 成 m 个 
簇 Cis very Cn 的 对 象 集 ， 质量 可 以 用 下 式 度量 : 
ECG Cn) = [] PCC) (10.18) 
HP, PO 是 最 大 似 然 。 如 果 我 们 把 两 个 秘 C AC, AIF R—ME C UC, ， 则 整个 聚 类 质 
量 的 变化 是 
Q(( {Cis Ca] 一 1€,,,C,,} ) U 1C,, U C, ) 一 Q( iC, r Ca] ) 
TL Pcc Pc, U C,) 
“PCG, PCG, ) L 
= P( C; U C,,) 
= [Pc (PEPI -1) 
4RIMEZKREPRERAHATEN, TEA IE, Pc) 是 常量 。 因 此 ， 给 定 
RC 和 C:， 它 们 之 间 的 距离 可 以 用 下 式 度量 
dist(C,,C,) = 


(10. 19) 


Jog P(C: U &) 
~ 8 P(C,) PCC) 
(RU EET HK HY WAR FER RK HEAR, (AY (10.20) 式 度量 簇 
间距 离 。 
仔细 观察 (10.19) 式 ， 我 们 看 到 合并 两 个 簇 不 可 能 总 是 使 聚 类 质量 提高 ， 即 
P(C. UC. 
EP 可 能 小 于 1。 例 如， 假定 在 如 图 10.11 所 示 的 模型 中 使 用 高 其 分布 了 
Ho RASH CMC, 导致 结果 簇 更 好 地 拟 合 高 斯 分 布 ， 但 是 合并 艇 C, 和 C, 将 降低 
聚 类 质量 ， 因 为 没有 一 个 高 斯 函数 可 以 很 好 地 拟 合 合并 后 的 艇 。 


(10. 20) 
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图 10. 11 ”概率 层次 聚 类 的 簇 合 并 : AHC AC, 使 总 体 聚 类 质量 提高 ， 但 合并 和 铸 C; AC, 不 能 
基于 这 种 观察 ， 概 率 的 层次 聚 类 可 以 从 每 个 对 象 一 个 艇 开始 ， 并 且 合 并 两 个 徐 C; M C, 


P(C,UCG, 
如 果 它 们 之 间 的 距离 为 负 。 在 每 次 迭代 中 ， 我 们 试图 找到 C, AC, 以 最 大 化 log A 
P(CCIUC ) 


只 要 log PCG) POG) >0， 即 只 要 聚 类 质量 有 提高 ， 则 迭代 继续 。 伪 代码 如 图 10. 12 所 示 。 


概率 层次 聚 类 方法 容易 理解 ， 并 且 有 具有 与 算法 的 凝聚 层次 聚 类 方法 同样 的 有 效 性 ; 
事实 上 ,它们 有 相同 的 框架 。 概 率 模型 有 更 好 的 可 解释 性 ， 但 是 有 了 时 不 如 距离 度量 灵 
活 。 概 率 模型 可 以 处 理 部 分 观测 的 数据 。 例 如 ， 给 定 一 个 多 维 数据 集 ， 其 中 某 些 对 象 
在 某 些 维 上 有 缺失 值 ， 我 们 可 以 在 每 个 维 上 使 用 该 维 的 观测 值 独立 地 学 习 一 个 高 斯 模 
型 。 结 果 簇 层次 结构 实现 数据 拟 合 选取 的 概率 模型 的 优化 目标 。 

BOR EUR A INTERNE, (ge 概率 层次 到 类 算法 
它 只 输出 一 个 关于 选取 的 概率 模型 的 | 输入 : 包含 "个 对 象 的 数据 集 D={o, … .oO 
层次 结构 。 它 不 能 处 理 聚 类 层次 结构 “| RA SR aa 
的 不 确定 性 。 给 定 一 个 数据 集 ， 可 能 | (1， 为 每 个 对 象 创建 一 个 馈 C=(0} ,1 <i<n; 
存在 多 个 拟 合 观测 数据 的 层次 结构 。 | (2) forF=lton PEUC) 
算法 的 方法 和 概率 的 方法 都 不 能 发 现 | D BRAY ECAC AC. C ag max loe Prey picy 
这 些 层 次 结构 分 布 。 最 近 ， 已 经 开发 | (4) iflog tock >0 then 合并 C 和 Ci 
了 贝 叶 斯 树 结构 模型 来 处 理 这 些 问题 。 | (5 else ks 
我 们 把 贝 叶 斯 和 其 他 复杂 的 概率 的 聚 
类 方法 作为 高 级 课题 ， 本 书 不 再 阐述 。 


10.4 基于 密度 的 方法 

划分 和 层次 方法 骨 在 发 现 球 状 徐 。 它 们 很 难 发 现任 意 形状 的 徐 ， 如 图 10. 13 中 “S” 形 
和 椭圆 形 徐 。 给 定 这 种 数据 ， 它 们 很 可 能 不 正确 地 识别 凸 区 域 ， 其 中 噪声 或 离 群 点 被 包含 在 
FEB, 























图 10.12 ”概率 层次 聚 类 算法 
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图 10.13 任意 形状 的 得 


为 了 发 现任 意 形状 的 艇 ， 作 为 选择 ， 我 们 可 以 把 入 看 做 数据 空间 中 被 稀疏 区 域 分 开 的 币 
密 区域 。 这 是 基于 密度 的 聚 类 方法 的 主要 策略 ， 该 方法 可 以 发 现 非 球 状 的 簇 。 本 节 ， 我 们 将 
学 习 基 于 密度 聚 类 的 基本 技术 一 一 三 种 代表 性 的 方法 ， 即 DBSCAN (10.4.1 节 )、OPTICS 
(10.4.2 节 ) 和 DENCLUE (10.4.3 47), 


10.4.1 DBSCAN .一 种 基于 高 密度 连通 区 域 的 基于 密度 的 聚 类 

“如 何在 基于 密度 的 聚 类 中 发 现 稠密 区 域 ?” 对 象 o 的 密度 可 以 用 靠近 o 的 对 象 数 度量 。 
DBSCAN ( Density- Based Spatial Clustering of Applications with Noise， 具 有 了 噪声 应 用 的 基于 密 
度 的 空间 聚 类 ) 找 出 核心 对 象 ， 即 其 邻 域 稠密 的 对 象 。 它 连接 核心 对 象 和 它们 的 邻 域 ， 形 
成 稠密 区 域 作 为 复 。 

“DBSCAN 如 何 确定 对 象 的 邻 域 ?” 一 个 用 户 指定 的 参数 a > 0 用 来 指定 每 个 对 象 的 邻 域 
半径 。 对 象 o W e- 邻 域 是 以 o 为 中 心 、 以 = 为 半径 的 空间 。 

由 于 邻 域 大 小 由 参数 = 确定 ， 因 此 ， 邻 域 的 密度 可 以 简单 地 用 邻 域内 的 对 象 数 度量 。 为 
了 确定 一 个 邻 域 是 否 稠密 ，DBSCAN 使 用 另 一 个 用 户 指定 的 参数 MinPis， 指 定 稠密 区 域 的 密 
EBRE. MR—-TPMAN e - 邻 域 至 少 包含 MinPts 个 对 象 ， 则 该 对 象 是 核心 对 象 (core ob- 
ject) 。 核 心 对 象 是 稠密 区 域 的 支柱 。 

给 定 一 个 对 象 集 D， 我 们 可 以 识别 关于 参数 a 和 MinPis 的 所 有 核心 对 象 。 聚 类 任务 就 
归结 为 使 用 核心 对 象 和 它们 的 邻 域 形 成 稠密 区 域 ， 这 里 稠密 区 域 就 是 簇 。 对 于 核心 对 象 A 
对 象 p， 我 们 说 p 是 从 gq (XF e Al MinPts) HEB BAIAN (directly density- reachable) , 
如 果 己 在 9 的 e- 邻 域内 。 显 然 ， 对象 p 是 从 男 一 个 对 象 g 直接 密度 可 达 的 ， 当 且 仅 当 9 是 
核心 对 象 ， 并 且 忆 在 4 的 =- 邻 域 中 。 使 用 直接 密度 可 达 关 系 ， 核 心 对 象 可 以 把 它 的 = - 邻 
域 中 的 所 有 对 象 都 “ 带 人 ”一 个 稠密 区 域 。 

“如 何 使 用 以 核心 对 象 为 中 心 的 小 稠密 区 域 来 装配 一 个 大 稠密 区 域 ?” 在 DBSCAN 中 , p 
是 从 9 (关于 a 和 MinPts) 密度 可 达 的 (density- reachable) ， 如 果 存 在 一 个 对 象 链 p, 
Pr, Pas ÈP, =g4，P。 =p， 并 且 对 于 p; eD (1<i<n), pi ÆA p: KF e A MinPts 直 
接 密度 可 达 的 。 注 意 ， 密 度 可 达 不 是 等 价 关 系 ， 因 为 它 不 是 对 称 的 。 如 果 o Mo, 都 是 核心 
对 象 ， 并 且 o 是 从 o, 密度 可 达 的 ， 则 o, Aho, 密度 可 达 的 。 然 而 ， 如 果 o, 是 核心 对 象 而 
o, 不 是 ， 则 o 可 能 是 从 0, 密度 可 达 的 ， 但 反 过 来 就 不 可 以 。 

为 了 把 核心 对 象 与 它 的 近邻 连接 成 一 个 稠密 区 域 ，DBSCAN 使 用 密度 相连 概念 。 两 个 
对 象 p, ，p; eD 是 关于 & 和 MinPts 密度 相连 的 (density-connected) ， 如 果 存 在 一 个 对 象 ge 
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D， 使 得 对 象 p, 和 p, 都 是 从 4 KF e 和 MinPts 密度 可 达 的 。 不 像 密度 可 达 ， 密 度 相 连 是 等 
价 关 系 。 容 易 证 明 ， 对 于 对 象 ol o, Mo, WR o, Mo, 是 密度 相连 的 ， 并 且 o Mo, 是 密 
度 相连 的 ， 则 o Alo, 也 是 密度 相连 的 。 

例 10.7 密度 可 达 和 密度 相连 。 给 定 圆 的 半径 为 =， 令 MinPts =3， 考 虑 图 10. 14。 

















图 10. 14 ”基于 密度 的 育 类 中 的 密度 可 达 和 密度 相连 性 。 取 自 Ester, Kriegel, Sander 和 Xu[ EKSX96 ] 


在 被 标记 的 点 中 , m, p, o 和 7 都 是 核心 对 象 ， 因 为 它们 的 - 邻 域内 都 至 少 包含 
3 个 对 象 。 对 象 g 是 从 m 直接 密度 可 达 的 。 对 象 m 是 从 p 直接 密度 可 达 的 ， 并 且 反 之 
亦 然 。 

对 象 9 是 从 p (间接 ) 密度 可 达 的 ， 因 为 gq 是 从 m 直接 密度 可 达 的 ， 并且 m 是 从 p 直 
接 密 度 可 达 的 。 然 而 , 并 不 是 从 g 密度 可 达 的 ， 因 为 g 不 是 核心 对 象 。 类 似 地 ，r 和 s 是 
从 o 密度 可 达 的 ,而 o 是 从 7r 密度 可 达 的 。 因 此 ，o、r Als 都 是 密度 相连 的 。 a 

我 们 可 以 使 用 密度 相连 的 闭 包 来 发 现 连 通 的 稠密 区 域 作为 簇 。 每 个 闭 集 都 是 一 个 基 

472] 于 密度 的 簇 。 子 集 CS 是 一 个 徐 ， 如果 (1) 对 于 任意 两 个 对 象 ol ，o se C，o Ao, 
是 密度 相连 的 ， 并 且 (2) 不 存在 对 象 es C 和 另 一 个 对 象 o'e (D - C) 使 得 o MoE 
密度 相连 的 。 

“DBSCAN 如 何 发 现 簇 ?” 初 始 ， 给 定数 据 集 D 中 的 所 有 对 象 都 被 标记 为 “unvisited”。 
DBSCAN 随机 地 选择 一 个 未 访问 的 对 象 p， 标 记 p H “visited”, HRE p 的 e - 邻 域 是 否 至 
DAE MinPts R, MERE, Mp 被 标记 为 曲 声 点 。 否 则 为 p 创建 一 个 新 的 复 C， 并 是 
把 p 的 。- 邻 域 中 的 所 有 对 象 都 放 到 候选 集合 N 中 。DBSCAN 和 迭代 地 把 N PRE FHK 
对 象 添加 到 C 中 。 在 此 过 程 中 ， 对 于 N 中 标记 为 “unvisited” 的 对 象 p'，DBSCAN 把 它 标 
记 为 “visited”， 并 且 检 查 它 的 e- 邻 域 。 如 果 忆 的 e - 邻 域 至 少 有 MinPts 个 对 象 ， 则 p' 的 
2 一 邻 域 中 的 对 象 都 被 添加 到 N 中 。DBSCAN 继续 添加 对 象 到 C， 直 到 C 不 能 再 扩展 ， 即 直 
BNA. Wi, PEC 完全 生成 ， 于 是 被 输出 。 

为 了 找 出 下 一 个 徐 ，DBSCAN 从 剩 下 的 对 象 中 随机 地 选择 一 个 未 访问 的 对 象 。 聚 类 过 程 
继续 ， 直 到 所 有 对 象 都 被 访问 。DBSCAN 算法 的 伪 代 码 如 图 10. 15 所 示 。 

如 果 使 用 空间 索引 ， 则 DBSCAN 的 计算 复杂 度 为 0(nlogn)， 其 中 n 是 数据 库 对 象 数 ， 
其 复杂 度 为 0( 亚 ) 。 如 果 用 户 定义 的 参数 e 和 MinPts 设置 恰当 ， 则 该 算法 可 以 有 效 地 发 现 
任意 形状 的 簇 。 
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算法 : DBSCAN， 一 种 基于 密度 的 聚 类 算法 。 
输入 : 

* D: 一 个 包含 "个 对 象 的 数据 集 。 

+e: 半径 参数 。 

。MinPts: KIRE RE BUA. 
i: 基于 密度 的 艇 的 集合 
方法 : 
(1) 标记 所 有 对 象 为 unvisited ; 
(2) do 
(3) 随机 选择 一 个 unvisited 对 象 p; 
(4) 标记 p 为 visited; 
(5) 放 p 的 e- 邻 域 至 少 有 MinPts 个 对 象 
(6) 创建 一 个 新 位 C， 并 把 pIRAIBIC; 
(7) 令 N 为 p 的 =- 邻 域 中 的 对 象 的 集合 ; 
(8) forN 中 每 个 点 p' 





《9) ifp’ 是 unvisited 

(10) 标记 ”为 visited; 

(11) ifp 的 e- 邻 域 至 少 有 MinPk 个 点 ， 把 这 些 点 添加 到 N; 
(12) ifp’ BRB RA. Hp RIMBIC; 

(13) end for 

(14) 输出 C; 


(15) else p 4 URS ; 
(16) until 没 有 标记 为 unvisited 的 对 象 ; 








图 10.15 DBSCAN 算法 


10.4.2 OPTICS. 通过 点 排序 识别 聚 类 结构 


尽管 DBSCAN 能 够 根据 给 定 的 输入 参数 。( 邻 域 的 最 大 半径 ) 和 MinPts (核心 对 象 的 
邻 域 中 要 求 的 最 少 点 数 ) 聚 类 对 象 ， 但 是 它 把 选择 能 产生 可 接受 的 聚 类 结果 的 参数 值 的 责 
任 留 给 了 用 户 。 这 是 许多 其 他 聚 类 算法 都 存在 的 问题 。 参 数 的 设置 通常 依靠 经 验 ， 难 以 确 
定 ， 对 于 现实 世界 的 高 维 数 据 集 而 言 尤其 如 此 。 大 多 数 算法 都 对 这 些 参数 值 非常 敏感 ， 设置 
的 细微 不 同 可 能 导致 差别 很 大 的 聚 类 结果 。 此 外 ， 现 实 的 高 维 数据 集 常常 具有 非常 倾斜 的 分 
布 ， 全 局 密度 参数 不 能 很 好 地 刻画 其 内 在 的 聚 类 结构 。 

注意 ， 基 于 密度 的 簇 关 于 邻 域 阐 值 是 单调 的 。 也 就 是 说 ， 在 DBSCAN 中 ， 对 于 固定 的 
MinPts 值 和 两 个 邻 域 益 值 a, <e, XF e 和 MinPts WHE C 一 定 是 关于 £, 和 MinPts (FE C’ 
的 子 集 。 这 意味 ， 如 果 两 个 对 象 在 同一 个 基于 密度 的 能 中 ， 则 它们 一 定 也 在 同一 个 具有 较 低 
密度 要 求 的 簇 中 。 

为 了 克服 在 聚 类 分 析 中 使 用 一 组 全 局 参数 的 缺点 ， 提 出 了 OPTICS 聚 类 分 析 方法 。OP- 
TICS 并 不 显 式 地 产生 数据 集聚 类 ， 而 是 输出 簇 排序 (cluster ordering) 。 这 个 排序 是 所 有 分 
析 对 象 的 线性 表 ， 并 且 代 表 了 数据 的 基于 密度 的 聚 类 结构 。 较 稠密 艇 中 的 对 象 在 艇 排序 中 相 
互 靠近 。 这 个 排序 等 价 于 从 广泛 的 参数 设置 中 得 到 的 基于 密度 的 聚 类 。 这 样 ，OPTICS RE 
要 用 户 提供 特定 密度 阔 值 。 复 排序 可 以 用 来 提取 基本 的 聚 类 信息 (in, RP OMB 
状 的 位 ) ， 导 出 内 在 的 聚 类 结构 ， 也 可 以 提供 聚 类 的 可 视 化 。 

为 了 同时 构造 不 同 的 聚 类 ， 对 象 需要 按 特 定 次 序 处 理 。 这 个 次 序 选择 这 样 的 对 象 ， 即 关 
于 最 小 的 = 值 ， 它 是 密度 可 达 的 ， 以 便 较 高 密度 (BUR = (A) 的 簇 先 完成 。 基 于 这 个 想法 ， 
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对 于 每 个 对 象 ，OPTICS 需要 两 个 重要 信息 : 

© XA p 的 核心 距离 (core-distance) 是 最 小 的 值 a ,使 得 p 的 a' - 邻 域 内 至 少 有 

MinPts 个 对 象 。 也 就 是 说 ，e' 是 使 得 p 成 为 核心 对 象 的 最 小 半径 阐 值 。 如 果 p 不 是 
RF e 和 MinPts 的 核心 对 象 ， 则 p 的 核心 距离 没有 定义 。 
AXIR q 到 对 象 p 的 可 达 距 离 (reachability- distance) 是 使 p A q 密度 可 达 的 最 小 半 
径 值 。 根 据 密度 可 达 的 定义 ,gq 必须 是 核心 对 象 ， 并且 p 必须 在 g 的 邻 域内 。 因 此 ， 
SM q 到 pp 的 可 达 距 离 是 max | core-distance (q), dist(p, q)|. WRG 不 是 关于 e 和 
MinPts 的 核心 对 象 ， 则 从 9 Bll 的 可 达 距 离 没 有 定义 。 

WAP 可 能 直接 由 多 个 核心 对 象 可 达 。 因 此 ， 关 于 不 同 的 核心 对 象 ,，p 可 能 有 多 个 可 
达 距 离 。p 的 最 小 可 达 距 离 特别 令 人 感 兴趣 ， 因 为 它 给 出 了 p 连接 到 一 个 稠密 徐 的 最 短 
路 径 。 

例 10.8 核心 距离 和 可 达 距 离 。 图 10. 16 演示 了 核心 距离 和 可 达 距 离 的 概 含 。 假 设 es = 
6mm, MinPis=5, p 的 核心 距离 是 p 与 p 的 第 4 个 最 近 的 数据 对 象 之 间 的 距离 ae'。 从 p alg, 
的 可 达 距 离 是 p 的 核心 距离 ( 即 ec’ =3mm)， 因 为 它 比 从 p Bg, 的 欧 氏 距离 大 。g, 关于 p 
的 可 达 距 离 是 从 p 到 gq, 的 欧 氏 距离 ， 因 为 它 大 于 p 的 核心 距离 。 E 


a a 
A 


P 的 核心 距离 可 达 距 离 (pq) =e’ =3mm 
可 达 不 离 (pq) =dist= (pq) 


图 10.16 OPTICS 的 术语 。 取 自 Ankerst、 Breunig, Kriegel 和 Sander[ ABKS99 ] 


OPTICS 计算 给 定数 据 库 中 所 有 对 象 的 排序 ， 并 且 存 储 每 个 对 象 核心 距离 和 相应 的 可 达 
FERS. OPTICS 维护 一 个 称 做 OrderSeeds 的 表 来 产生 输出 排序 。OrderSeeds 中 的 对 象 按 到 各 
自 的 最 近 核 心 对 象 的 可 达 距 离 排序 ， 即 按 每 个 对 象 的 最 小 可 达 距 离 排序 。 

开始 ，OPTICS 用 输入 数据 库 中 的 任意 对 象 作为 当前 对 象 p。 它 检索 p 的 - 邻 域 ， 确 定 
核心 距离 并 设置 可 达 距 离 为 未 定义 。 然 后 ， 输 出 当前 对 象 p。 如 果 p 不 是 核心 对 象 ， 则 OP- 
TICS 简单 地 转移 到 OrderSeeds 表 (或 输入 数据 库 ， 如 果 OrderSeeds 为 空 ) 的 下 一 个 对 象 。 
WER p 是 核心 对 象 ， 则 对 于 pp 的 - 邻 域 中 的 每 个 对 象 g，OPTICS 更 新 从 p 到 g 的 可 达 距 
离 ， 并 且 如 果 g 尚未 处 理 ， 则 把 g 插入 OrderSeeds。 该 迭代 继续 ， 直 到 输入 完全 耗 尽 并 且 
OrderSeeds 为 空 。 

数据 集 的 簇 排序 可 以 用 图 形 描述 ， 这 有 助 于 可 视 化 和 理解 数据 集中 聚 类 结构 。 例 如 ， 图 
10. 17 是 一 个 简单 的 二 维 数 据 集 的 可 达 性 图 ， 它 给 出 了 如 何 对 数据 结构 化 和 聚 类 的 一 般 观 
察 。 数 据 对 象 连 同 它们 各 自 的 可 达 距 离 ( 纵 轴 ) RR OR) 绘 出 。 其 中 三 个 高 斯 
“ 凸 起 ”反映 数据 集中 的 三 个 艇 。 为 在 不 同 的 细节 层次 上 观察 高 维 数据 的 聚 类 结构 ， 也 已 开 
发 了 一 些 方法 。 
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ARAN EY 
图 10.17 OPTICS 中 的 艇 次 序 。 取 自 Ankerst Breunig, Kriegel 和 Sander[ ABKS99 ] 


由 于 OPTICS 算法 的 结构 与 DBSCAN 非常 相似 ， 因 此 两 个 算法 具有 相同 的 时 间 复 杂 度 。 
如 果 使 用 空间 索引 ， 则 复杂 度 为 0(nlogn) ， 否 则 为 0(m) ， 其 中 是 对 象 数 。 


10.4.3 DENCLUE. 基于 密度 分 布 函数 的 聚 类 


密度 估计 是 基于 密度 的 聚 类 方法 的 核心 问题 。DENCLUE (DENsity- based CLUstEring, 
基于 密度 的 聚 类 ) 是 一 种 基于 一 组 密度 分 布 函数 的 聚 类 算法 。 我 们 先 给 出 密度 估计 的 一 些 
背景 知识 ， 然 后 介绍 DENCLUE 算法 。 

在 概率 统计 中 ， 密 度 估计 是 根据 一 系列 观测 数据 集 来 估计 ae Gan 
不 可 观测 的 概率 密度 函数 。 在 基于 密度 聚 类 的 背景 下 ， 不 可 观 Ja aS 
测 的 概率 密度 函数 是 待 分 析 的 所 有 可 能 的 对 象 的 总 体 的 真实 分 ”7 
布 。 观 测 数据 集 被 看 做 取 自 该 总 体 的 一 个 随机 样本 。 e 

在 DBSCAN 和 OPTICS 中 ， 密 度 通过 统计 被 半径 参数 = ELI, ba 
邻 域 中 的 对 象 个 数 来 计算 。 这 种 密度 估计 对 所 使 用 的 半径 值 非常 敏 。 “ee 、.、 _.. 








感 。 例 如 ， 在 图 10. 18 中 ， 随 着 半径 的 稍微 增加 ， 密 度 显著 改变 。 Re 
为 了 解决 这 一 问题 ， 可 以 使 用 核 密度 估计 (kermel density esti- 图 10.18 DBSCAN 和 OPTICS 
mation) ， 它 是 一 种 源 自 统计 学 的 非 参 数 密度 估计 方法 。 核 密度 估 中 密度 估计 的 微妙 
计 的 一 般 思 想 是 简单 的 。 我 们 把 每 个 观测 对 象 都 看 做 周围 区 域 人 
中 高 概率 密度 的 一 个 指示 器 。 一 个 点 上 的 概率 密度 依赖 于 从 该 ee 
点 到 观测 对 象 的 距离 。 
Bx, e, x, 是 随机 变量 /的 独立 的 、 等 分 布 样本 。 概 率 密度 函数 的 近似 核 密度 为 





real 


fi(*) = ed h 
其 中 , K() 是 核 ,h 是 用 作 光 滑 参 数 的 带宽 。 核 (kemel) 可 以 看 做 一 个 函数 ， 对 其 邻 域 中 
的 样本 点 的 影响 建 模 。 从 技术 上 讲 ， 核 玉 () 是 一 个 非 负 的 实数 值 可 积 函 数 ， 满 足 两 个 要 求 


f K(w) du = 1 ， 并 且 对 于 所 有 的 u 值 ，K( -u) = K(z) 。 经 常 使 用 的 核 是 均值 为 0， 方 差 
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为 1 的 标准 高 斯 函数 : 
==) = ee (10. 22) 
T 

DENCLUE 使 用 高 斯 核 估计 基于 给 定 的 待 聚 类 的 对 象 集 密度 。 点 x' 称 做 密度 吸引 点 (density 
attractor) ， 如 果 它 是 估计 的 密度 函数 的 局 部 最 大 点 。 为 了 避免 平凡 的 局 部 最 大 点 ，DEN- 
CLUE 使 用 一 个 噪声 阔 值 上 ， 并 且 仅 考虑 满足 A 六 * ” ) Se RES x”, ESE ELE 
吸引 点 都 是 簇 中心 。 

通过 密度 吸引 点 ,使 用 一 个 步 进 式 息 山 过 程 ， 把 待 分 析 的 数据 分 配 到 簇 中 。 对 于 对 象 
x, ELEA r 出 发 ， 并 且 被 估计 的 密度 函数 的 梯度 所 指导 。 也 就 是 说 ，z 的 密度 吸引 点 


计算 如 下 : 





K( 


x? 


=x 
mi gg Vf) 
x =e +8 TT A) | (10. 23) 
其 中 5 是 控制 收敛 速度 的 参数 ， 而 


V f(x) = l 


Am 之 K(- 二 ) (x; -x) 

假山 过 程 在 步骤 大 >0 处 停止 ， 如 果 f (x**') < f(x"), 并且 把 x CPI ERS A x? =x’, 
对 象 x BARS, IRAE PEF NBS (x) <E KURA x" 。 

DENCLUE 的 一 个 簇 是 一 个 密度 吸引 点 的 集合 和 一 个 输入 对 象 的 集合 C， 使 得 C 中 的 
每 个 对 象 都 被 分 配 到 XX 中 的 一 个 密度 吸引 点 ， 并 且 每 对 密度 吸引 点 之 间 都 存在 一 条 其 密度 
大 于 去 的 路 径 。 通 过 使 用 被 路 径 连接 的 多 个 密度 吸引 点 ，DENCLUE 可 以 发 现任 意 形状 的 簇 。 

DENCLUE 有 一 些 优点 。 它 可 以 视 为 多 种 著名 的 聚 类 方法 〈 如 单 连接 方法 和 DBSCAN ) 
的 一 般 化 。 此 外 ，DENCLUE 是 抗 噪声 的 。 核 密度 估计 通过 把 噪声 均匀 地 分 布 到 输入 数据 ， 
可 以 有 效 地 降低 噪声 的 影响 。 


10.5 基于 网 格 的 方法 

迄今 为 止 所 讨论 的 方法 都 是 数据 驱动 的 一 一 它们 划分 对 象 集 并 且 自 动 适 应 伐 人 空间 中 的 
数据 分 布 。 另 外 ， 基 于 网 格 的 聚 类 (grid-based clustering) 方法 采用 空间 驱动 的 方法 ， 把 幅 
人 空间 划分 成 独立 于 输 人 对 象 分 布 的 单元 。 

基于 网 格 的 聚 类 方法 使 用 一 种 多 分 辩 率 的 网 格 数据 结构 。 它 将 对 象 空间 量化 成 有 限 数目 的 
单元 ， 这 些 单元 形成 了 网 格 结构 ， 所 有 的 聚 类 操作 都 在 该 结构 上 进行 。 这 种 方法 的 主要 优点 是 
处 理 速 度 快 ， 其 处 理 时 间 独 立 于 数据 对 象 数 ， 而 仅 依赖 于 量化 空间 中 每 一 维 上 的 单元 数 。 

本 节 ， 我 们 使 用 两 个 典型 的 例子 解释 基于 网 格 的 聚 类 。STING (10.5.1 节 ) 考察 存储 
在 网 格 单元 中 的 统计 信息 。CLIQUE (10.5.2 节 ) 是 基于 网 格 和 密度 的 聚 类 方法 ， 用 于 高 维 
数据 空间 中 的 子 空间 聚 类 。 


10.5.1 _ STING :统计 信息 网 格 


STING (STatistical INformation Crid， 统 计 信 息 网 格 ) 是 一 种 基于 网 格 的 多 分 辩 率 的 聚 类 
技术 ， 它 将 输入 对 象 的 空间 区 域 划分 成 矩形 单元 。 空 间 可 以 用 分 层 和 递归 方法 进行 划分 。 这 种 
多 层 托 形 单元 对 应 不 同 级 别 的 分 辩 率 ， 并 且 形 成 一 个 层次 结构 : 每 个 高 层 单元 被 划分 为 多 个 低 
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一 层 的 单元 。 关 于 每 个 网 格 单元 的 属性 的 统计 信息 〈 如 均值 、 最 大 值 和 最 小 值 ) 被 作为 统计 
参数 预先 计算 和 存储 。 对 于 查询 处 理 和 其 他 数据 分 析 任 务 ， 这 些 统计 参数 是 有 用 的 。 

图 10. 19 显示 了 STING 到 类 的 一 个 层次 结构 。 高 层 单元 的 统计 参数 可 以 很 容易 地 从 低层 
单元 的 参数 计算 得 到 。 这 些 参数 包括 : 属性 无 关 的 参数 count (计数 ); 属性 相关 的 参数 
mean (S548). stdev (标准 差 )、min (最 小 值 ) max (最 大 值 ) ， 以 及 该 单元 中 属性 值 遵循 
的 distribution (分 布 ) 类 型 ， 如 normal (IERS), uniform (均匀 的 ) exponential (指数 
的 ) 或 none (如果 分 布 未 知 )。 这 里 ， 属 性 是 一 个 选 作 分 析 的 度量 ， 如 住宅 对 象 的 price。 当 
数据 被 加 载 到 数据 库 时 ， 最 底层 单元 的 参数 count, mean, stdev, min 和 max 直接 由 数据 计 
算 。 如 果 分 布 的 类 型 事先 知道 ， 则 distribution 的 值 可 以 由 用 户 指定 ， 也 可 以 通过 假设 检验 
(如 X 检验 ) 来 获得 。 较 高 层 单元 的 分 布 类 型 可 以 基于 其 对 应 的 低层 单元 多 数 的 分 布 类 型 ， 
用 一 个 阔 值 过 滤 过 程 的 合 取 来 计算 。 如 果 低 层 单元 的 分 布 彼此 不 同 ， 阔 值 检验 失败 ， 则 高 层 
单元 的 分 布 类 型 被 置 为 none。 

第 1 层 





图 10.19 STING 率 类 的 层次 结构 


“这 些 统计 信息 如 何 用 于 回答 查询 ?” 统 计 参 数 的 使 用 可 以 按照 以 下 自 顶 向 下 的 基于 网 
格 的 方式 。 首 先 ， 在 层次 结构 中 选 定 一 层 作为 查询 回答 过 程 的 开始 点 。 通 常 ， 该 层 包含 少量 
单元 。 对 于 当前 层 的 每 个 单元 ， 我 们 计算 反映 该 单元 与 给 定 查询 的 相关 程度 的 置信 度 区 间 
(或 者 估计 其 概率 范围 ) 。 不 相关 的 单元 就 不 再 进一步 考虑 。 下 一 个 较 低 层 的 处 理 就 只 检查 
剩余 的 相关 单元 。 这 个 处 理 过 程 反复 进行 ， 直 到 达到 最 底层 。 此 时 ， 如 果 查 询 要 求 被 满足 ， 
则 返回 满足 查询 的 相关 单元 的 区 域 。 否 则 ， 检 索 和 进一步 处 理 落 在 相关 单元 中 的 数据 ， 直 到 
它们 满足 查询 要 求 。 

STING 的 一 个 有 趣 性 质 是 : 如 果 粒 度 趋向 于 0 ( 即 朝 向 非常 低层 的 数据 ) ， 则 它 趋向 于 
DBSCAN 的 聚 类 结果 。 换 言 之 ， 使 用 计数 和 单元 大 小 信息 ， 使 用 STING 可 以 近似 地 识别 笛 
Me. Alb, STING 也 可 以 看 做 基于 密度 的 聚 类 方法 。 

“与 其 他 聚 类 算法 相 比 ，STING 有 什么 优点 ?”STING 有 几 个 优点 : (1) 基于 网 格 的 计 
算是 独立 于 查询 的 ， 因 为 存储 在 每 个 单元 中 的 统计 信息 提供 了 单元 中 数据 汇总 信息 ， 不 依赖 
FRA; (2) 网 格 结构 有 利于 并 行 处 理 和 增 量 更 新 ; (3) 该 方法 的 主要 优点 是 效率 高 : 
STING 扫描 数据 库 一 次 来 计算 单元 的 统计 信息 ， 因 此 产生 聚 类 的 时 间 复 杂 度 是 0(n)， 其 中 
n 是 对 象 数 。 在 层次 结构 建立 后 ， 查 询 处 理 时 间 是 0(g) ， 其 中 g 是 最 底层 网 格 单元 的 数目 ， 
通常 远 远 小 于 no 

由 于 STING 采用 了 一 种 多 分 辩 率 的 方法 来 进行 聚 类 分 析 ， 因 此 STING 的 聚 类 质量 取决 
于 网 格 结构 的 最 底层 的 粒度 。 如 果 最 底层 的 粒度 很 细 ， 则 处 理 的 代价 会 显著 增加 ; 然而 ， 如 
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果 网 格 结构 最 底层 的 粒度 太 粗 ， 则 会 降低 聚 类 分 析 的 质量 。 此 外 ，STING 在 构建 一 个 父亲 单 
元 时 没有 考虑 子女 单元 和 其 相 邻 单元 之 间 的 联系 。 因 此 ， 结 果 簇 的 形状 是 isothetic， 即 所 有 
的 饮 边 界 不 是 水 平 的 ， 就 是 竖 直 的 ， 没 有 和 斜 的 分 界线 。 尽 管 该 技术 有 较 快 的 处 理 速度 ， 但 可 
能 降低 秘 的 质量 和 精确 性 。 


10.5.2 ”CLIQUE ， 一 种 类 似 于 Apriori 的 子 空间 聚 类 方法 


数据 对 象 通常 有 数 10 个 属性 ， 其 中 许多 可 能 不 相关 。 属 性 的 值 可 能 差异 很 大 。 这 些 因素 使 
得 我 们 很 难 在 整个 数据 空间 找 出 簇 。 在 数据 的 不 同 子 空 间 中 搜索 簇 可 能 更 有 意义 。 例 如 ， 考 虑 健 
康信 息 学 应 用 ， 其 中 患者 记录 包含 大 量 属 性 以 描述 个 人 信息 、 大 量 症 状 、 身 体 状况 和 家 族 病 史 。 

找 出 在 所 有 ， 甚 至 是 在 大 部 分 属性 上 非常 一 致 的 患者 群 是 不 大 可 能 的 。 例 如 ， 在 禽 流 感 
BB, age, gender 和 job 属性 可 能 在 一 个 很 宽 的 值 域 中 显著 变化 。 因 此 ， 很 难 在 整个 数据 
空间 找 出 这 样 的 簇 。 然 而 ， 通 过 子 空间 搜索 ， 我 们 可 能 在 较 低 维 空间 中 发 现 类 似 患 者 的 能 
(例如 ， 高 烧 、 咳 嗽 但 不 流 鼻涕 等 症状 ， 年 龄 在 3 ~ 16 岁 的 类 似 的 患者 簇 )。 

CLIQUE (Clustering In QUEst) 是 一 种 简单 的 基于 网 格 的 聚 类 方法 ， 用 于 发 现 子 空间 中 
ETER. CLIQUE 把 每 个 维 划 分 成 不 重 到 的 区 间 ， 从 而 把 数据 对 象 的 整个 艇 人 空间 划 
分 成 单元 。 它 使 用 一 个 密度 阔 值 识别 稠密 单元 和 稀 朴 单元 。 一 个 单元 是 稠密 的 ， 如 果 映 射 到 
它 的 对 象 数 超过 该 密度 闵 值 。 

CLIQUE 识别 候选 搜索 空间 的 主要 策略 是 使 用 稠密 单元 关于 维度 的 单调 性 。 这 基于 频繁 
模式 和 关联 规则 挖掘 使 用 的 先 验 性 质 (第 6 章 )。 在 子 空间 聚 类 的 背景 下 ， 单 调 性 陈述 如 
F: —* 4-46 (k>1) 单元 c 至 少 有 /个 点 , 仅 当 c 的 每 个 (k-1) - 维 投影 (CE (k- 
1) - 维 单元 ) BAIN. SHA 10. 20， 其 中 嵌入 数据 空间 包含 3 SHE: age, salary 和 
vacation。 例 如 ， 子 空间 age 和 salary 中 的 一 个 二 维 单元 包含 1 个 点 ， 仅 当 该 单元 在 每 个 维 
( 即 分 别 在 age 和 salary) 上 的 投影 都 至 少 包含 ! 个 点 。 
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图 10.20 Xý salary Fil vacation 维 上 发 现 的 关于 age 的 稠密 单元 取 交 ， 
从 而 为 发 现 更 高 维度 上 的 稠密 单元 提供 候选 搜索 空间 
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CLIQUE 通过 两 个 阶段 进行 聚 类 。 在 第 一 阶段 ，CLIQUE 把 4 - 维 数据 空间 划分 若干 互 不 
RANE SIC, HAM PIAS A sc. CLIQUE 在 所 有 的 子 空间 中 发 现 稠密 单元 。 为 
了 做 到 这 一 点 ，CLIQUE 把 每 个 维 都 划分 成 区 间 ， 并 识别 至 少 包含 ! 个 点 的 区 间 ， 其 中 /是 


人 +, D) 和 (D;,…，D;) PHI k- 
维 稠密 单元 Cl All ec,， 如 果 D, =D; a tty D; , Heese Ci All c, 4 共享 相同 的 
区 间 。 连 接 操作 产生 空间 (Di, wy D, ， D,» D) 中 的 (k+1) - 维 候选 单元 c。 


CLIQUE 检查 c 中 的 点 数 是 否 满足 密度 立 值 。 当 没有 候选 产生 或 候选 都 不 稠密 时 ， 迭 代 终 止 。 
在 第 二 阶段 中 ，CLIQUE 使 用 每 个 子 空间 中 的 稠密 单元 来 装配 可 能 具有 任意 形状 的 簇 。 
其 思想 是 利用 最 小 描述 长 度 (MDL) 原理 (第 8 章 )， 使 用 最 大 区 域 来 覆盖 连接 的 稠密 单 
元 ， 其 中 最 大 区 域 是 一 个 超 和 矩形 ， 落 人 该 区 域 中 的 每 个 单元 都 是 稠密 的 ， 并 且 该 区 域 在 该 子 空 
间 的 任何 维 上 都 不 能 再 扩展 。 一 般 地 找 出 徐 的 最 佳 描述 是 NP - 困难 的 。 因 此 ，CLIQUE 采用 了 
一 种 简单 的 贪心 方法 。 它 从 一 个 任意 稠密 单元 开始 ， 找 出 覆盖 该 单元 的 最 大 区 域 ， 然 后 在 尚未 
被 覆盖 的 剩余 的 稠密 单元 上 继续 这 一 过 程 。 当 所 有 稠密 单元 都 被 覆盖 时 ， 贪 心 方法 终止 。 
“CLIQUE 的 效果 如 何 ?”CLIQUE 自动 地 发 现 含有 高 密度 能 的 最 高 维 的 子 空间 。 它 对 输 
人 对 象 的 顺序 不 敏感 ， 并 且 无 须 假 定 任何 规范 的 数据 分 布 。 它 随 着 输入 规模 线性 地 伸缩 ， 并 
且 当 数据 维 数 增加 时 具有 良好 的 可 伸缩 性 。 然 而 ， 获 得 有 意义 的 聚 类 结果 依赖 于 正确 地 调整 
网 格 的 大 小 (这 里 ， 网 格 是 一 种 稳定 的 结构 ) 和 密度 阔 值 。 这 在 实践 中 是 相当 困难 的 ， 因 
为 网 格 大 小 和 密度 立 值 被 用 于 数据 集中 所 有 的 维 组 合 。 这 样 ， 作 为 该 方法 简洁 性 的 代价 ， 豪 
类 结果 的 精度 可 能 会 降低 。 此 外 ， 对 于 一 个 给 A 定 的 稠密 区 域 ， 该 区 域 在 所 有 低 维 子 空间 上 的 
投影 都 将 是 稠密 的 。 这 可 能 导致 所 报告 的 酝 密 区 域 存在 大 量 重要 。 而 且 ， 它 很 难 发 现 那些 在 
不 同 维 子 空间 上 密度 差异 较 大 的 簇 。 
对 该 方法 的 一 些 扩展 也 遵循 类 似 的 基本 原理 。 例 如 ， 想 象 网 格 是 固定 的 箱 的 集合 。 我 们 
可 以 基于 数据 分 布 的 统计 量 ， 使 用 自 适应 的 、 数 据 驱动 的 策略 ， 动 态 地 为 每 个 维 确定 箱 ， 而 
不 是 使 用 固定 的 箱 。 另 外 ， 我 们 可 以 使 用 箭 〈 见 第 8 章 ) ， 而 不 是 使 用 密度 阔 值 作为 子 空间 
KAEKEHE. 


10.6 聚 类 评估 
到 目前 为 止 ， 我 们 已 经 学 习 了 什么 是 聚 类 ， 并 且 已 经 认识 了 一 些 常见 的 聚 类 方法 。 你 可 
能 会 问 :“ 当 我 们 在 数据 集 上 试用 一 种 聚 类 方法 时 ， 我 们 如 何 评估 聚 类 的 结果 是 否 好 ?”-- 
般 而 言 ， 聚 类 评估 估计 在 数据 集 上 进行 聚 类 的 可 行 性 和 被 聚 类 方法 产生 的 结果 的 质量 。 取 类 
评估 主要 包括 如 下 任务 : 
© 估计 聚 类 趋势 。 在 这 项 任务 中 ， 对 于 给 定 的 数据 集 ， 我 们 评估 该 数据 集 是 否 存 在 非 
随机 结构 。 言 目地 在 数据 集 上 使 用 聚 类 方法 将 返回 一 些 徐 ， 然 而 ， 所 挖掘 的 徐 可 能 
是 误导 。 数 据 集 上 的 聚 类 分 析 是 有 意义 的 ， 仅 当 数据 中 存在 非 随机 结构 。 
© 确定 数据 集中 的 徐 数 。 一 些 诸如 -均值 这 样 的 算法 需要 数据 集 的 艇 数 作为 参数 。 
此 外 ， 簇 数 可 以 看 做 数据 集 的 有 趣 并 且 重 要 的 概括 统计 量 。 因 此 ， 在 使 用 聚 类 算法 
导出 详细 的 篮 之 前 ， 估 计 簇 数 是 可 取 的 。 
> 测定 聚 类 质量 。 在 数据 集 上 使 用 聚 类 方法 之 后 ， 我 们 想 要 评估 结果 艇 的 质量 。 许 多 
度量 都 可 以 使 用 。 有 些 方法 测定 簇 对 数据 的 拟 合 程度 ， 而 其 他 方法 测定 艇 与 基准 匹 
配 的 程度 ， 如 果 这 种 基准 存在 的 话 。 还 有 一 些 测定 对 聚 类 打分 ， 因 此 可 以 比较 相同 
数据 集 上 的 两 组 聚 类 结果 。 
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在 本 节 的 其 余部 分 ,我们 将 讨论 这 三 个 主题 。 


10.6.1 估计 聚 类 趋势 

聚 类 趋势 评估 确定 给 定 的 数据 集 是 否 具有 可 以 导致 有 意义 的 聚 类 的 非 随机 结构 。 考 虑 一 
个 没有 任何 非 随 机 结构 的 数据 集 ， 如 数据 空间 中 均匀 分 布 的 点 。 尽 管 聚 类 算法 可 以 为 该 数据 
集 返 回答 ,但 是 这 些 簇 是 随机 的 ， 没 有 任何 意义 。 

例 10.9 聚 类 要 求 数据 的 非 均 匀 分 布 。 图 10. 21 显示 了 一 个 2 维 数据 空间 中 均匀 分 布 
的 数据 集 。 尽 管 附 类 算法 仍然 可 以 人 工地 把 这 些 点 划 
HRE, 但 是 由 于 数据 的 均 句 分布， 对 于 应 用 而 言 ， 
这 些 簇 不 可 能 有 任何 意义 。 a 

“如 何 评估 数据 集 的 聚 类 趋势 ?” 直 观 地 看 ， 我 们 
可 以 评估 数据 集 被 均匀 分 布 产 生 的 概率 。 这 可 以 通过 
空间 随机 性 的 统计 检验 来 实现 。 为 了 解释 这 一 思想 ， 
我 们 考察 一 种 简单 但 有 效 的 统计 量 一 一 霍 普 金 斯 统 
计量 。 

霍 普 金 斯 统计 量 (Hopkins Statistic) 是 一 种 空间 统 
计量 ,检验 空间 分 布 的 变量 的 空间 随机 性 。 给 定数 据 
集 D， 它 可 以 看 做 随机 变量 o 的 一 个 样本 ， 我 们 想 要 确 








E o 在 多 大 程度 上 不 同 于 数据 空间 中 的 均匀 分 布 。 我 们 10.21 一 个 在 数据 空间 
按 以 下 步骤 计算 霍 普 金 斯 统计 量 : 均匀 分 布 的 数据 集 


(1) 均匀 地 从 DD 的 空间 中 抽取 n 个 点 pi，…, Pao 
也 就 是 说 ,，D 的 空间 中 的 每 个 点 都 以 相同 的 概率 包含 在 这 个 样本 中 。 对 于 每 个 点 p;(1 <i< 
n) ， 我 们 找 出 p: 在 D 中 的 最 近邻 ， 并 令 x; Ae, SEED 中 的 最 近邻 之 间 的 距离 ， 即 
Xi = min | dist(p; ,v) | (10. 25) 
(2) 均匀 地 从 DD 中 抽取 个 点 ad. oo Qo ATESA sisn), RIRE g; 在 
D-ila) 中 的 最 近邻 ， 并 令 y; 为 4 与 它 在 D -1g;| 中 的 最 近邻 之 间 的 距离 ， 即 
y. = min | dist(q,,¥) | (10. 26) 
(3) 计算 霍 普 金 斯 统计 量 刀 


Yi 
H = 一 一 -一 一 i=l - (10. 27) 
È a: + 27 
“ 堆 普 金 斯 统计 量 告诉 我 们 数据 集 万 有 多 大 可 能 遵守 数据 空间 的 均匀 分 布 吗 ?” 如 果 姜 


是 均匀 分 布 的 ， 则 2% Al 2 ee RB, Alii A RAH0.5. Pil, WARD 是 高 度 倾斜 


的 ， 则 Yy RDT Do, ， 因 而 万 将 接近 于 0。 


我 们 的 原 假设 是 局 质 假设 一 一 D 是 均匀 分 布 的 ， 因 而 不 包含 有 意义 的 簇 。 非 均匀 假设 
(BD 不 是 均匀 分 布 的 ， 因 而 包含 艇 ) 是 备 择 假设 。 我 们 可 以 迭代 地 进行 短 普 金 斯 统计 量 
检验 ， 使 用 0. 5 作为 拒绝 备 择 假设 阐 值 ， 即 如 果 瑟 >0.5,， 则 D 不 大 可 能 具有 统计 显著 
的 簇 。 
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10.6.2 ERR 

确定 数据 集中 “正确 的 ” 秘 数 是 重要 的 ， 不 仅 因为 像 丰 -均值 这 样 的 聚 类 算法 需要 这 种 
参数 ， 而 且 因为 合适 的 复数 可 以 控制 适当 的 聚 类 分 析 粒 度 。 这 可 以 看 做 在 聚 类 分 析 的 可 压缩 
性 与 准确 性 之 间 和 寻找 好 的 平衡 点 。 考 虑 两 种 极端 情况 。 如 果 把 整个 数据 集 看 做 一 个 徐 ， 会 怎 
ARE? 这 将 最 大 化 数据 的 压缩 ， 但 是 这 种 聚 类 分 析 没 有 任何 价值 。 另 一 方面 ， 把 数据 集 的 每 
个 对 象 看 做 一 个 簇 将 产生 最 细 的 聚 类 〈 即 最 准确 的 解 ， 由 于 对 象 到 其 对 应 的 簇 中 心 的 距离 
都 为 0) 。 在 像 上 -均值 这 样 的 算法 中 ， 这 甚至 实现 开销 最 小 。 然 而 ， 每 个 能 一 个 对 象 并 不 提 
供 任何 数据 概括 。 

确定 艇 数 并 非 易 事 ， 因 为 “正确 的 ” 簇 数 常常 是 含糊 不 清 的 。 通 常 ， 找 出 正确 的 簇 数 
依赖 于 数据 集 分 布 的 形状 和 尺度 ， 也 依赖 于 用 户 要 求 的 聚 类 分 辨 率 。 有 许多 估计 复数 的 可 能 
方法 。 这 里 ， 我 们 简略 介绍 几 种 简单 的 ， 但 流行 和 有 效 的 方法 。 


一 种 简单 的 经 验方 法 是 ， 对 于 个 点 的 数据 集 ， 设 置 能 数 p 大 约 为 全。 在 期 望 情况 


F, EMEKA Vn TA. 

肘 方 法 (elbow method) 基于 如 下 观察 : MERA D TERETE ANE M. 
这 是 因为 有 更 多 的 簇 可 以 捕获 更 细 的 数据 对 象 簇 ， 簇 中 对 象 之 间 更 为 相似 。 然 而 ， 如 果 形 成 
太 多 的 艇 ， 则 降低 徐 内 方差 和 的 边缘 效应 可 能 下 降 ， 因 为 把 一 个 凝聚 的 艇 分 裂 成 两 个 只 引起 
艇 内 方差 和 的 稍微 降低 。 因 此 ， 一 种 选择 正确 的 复数 的 启发 式 方 法 是 ， 使 用 簇 内 方差 和 关于 
复数 的 曲线 的 拐点 。 - 

严格 地 说 ， 给 定 天 >0， 我 们 可 以 使 用 一 种 像 丰 - 均值 这 样 的 算法 对 数据 集聚 类 ， 并 计算 
EADEM var(k) 。 然 后 ， 我 们 绘制 var AF k 的 曲线 。 曲 线 的 第 一 个 (或 最 显著 的 ) BA 
暗示 “正确 的 ” 簇 数 。 

更 高 级 的 方法 是 使 用 信息 准则 或 信息 论 的 方法 确定 艇 数 。 更 多 资料 请 参阅 文献 注释 
(10.9 节 )。 

数据 集中 “正确 的 ” 簇 数 还 可 以 通过 交叉 验证 确定 。 交 又 验 证 是 一 种 常用 于 分 类 的 技 
A (第 8 章 )。 首 先 ， 把 给 定 的 数据 集 D 划分 成 m 个 部 分 。 然 后 ,使 用 m -1 个 部 分 建立 一 
个 聚 类 模型 ， 并 使 用 剩 下 的 一 部 分 检验 聚 类 的 质量 。 例 如 ， 对 于 检验 集中 的 每 个 点 ， 我 们 可 
以 找 出 最 近 的 形 心 。 因 此 ， 我 们 可 以 使 用 检验 集中 的 所 有 点 与 它们 的 最 近 形 心 之 间 的 距离 的 
平方 和 来 度量 聚 类 模型 拟 合 检验 集 的 程度 。 对 于 任意 整数 上 >0， 我 们 依次 使 用 每 一 部 分 作 
为 检验 集 ， 重 复 以 上 过 程 m 次 ， 导 出 个 艇 的 聚 类 。 取 质量 度量 的 平均 值 作为 总 体质 量度 
量 。 然 后 ， 我 们 对 不 同 的 左 值 ， 比 较 总 体质 量度 量 ， 并 选取 最 佳 拟 合 数 据 的 复数 。 


10.6.3 ”测定 聚 类 质量 


假设 你 已 经 评估 了 给 定数 据 集 的 聚 类 趋势 ， 可 能 已 经 试 着 确定 了 数据 集 的 复数 。 现 在 ， 
你 可 以 使 用 一 种 或 多 种 聚 类 方法 来 得 到 数据 集 的 聚 类 。“ 一 种 方法 产生 的 聚 类 好 吗 ? 如 何 比 
较 不 同方 法 产生 的 聚 类 ?” 

对 于 测定 聚 类 的 质量 ， 我 们 有 几 种 方法 可 供 选 择 。 一 般 而 言 ， 根 据 是 否 有 基准 可 用 ， 这 
些 方法 可 以 分 成 两 类 。 这 里 ， 基 准 是 一 种 理想 的 了 涌 类， 通常 由 专家 构建 。 

如 果 有 可 用 的 基准 ， 则 外 在 方法 〈extrinsic method) 可 以 使 用 它 。 外 在 方法 比较 聚 类 结 
果 和 基准 。 如 果 没 有 基准 可 用 ， 则 我 们 可 以 使 用 内 在 方法 (intrinsic method) ， 通 过 考虑 簇 的 
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分 离 情况 评估 聚 类 的 好 坏 。 基 准 可 以 看 做 一 种 “ 簇 标号 ”形式 的 监督 。 因 此 ， 外 在 方法 又 
称 监 督 方法 ， 而 内 在 方法 是 无 监督 方法 。 
我 们 针对 每 类 考察 一 些 简 单 的 方法 。 
1. 外 在 方法 
当 有 基准 可 用 时 ， 我 们 可 以 把 它 与 聚 类 进行 比较 ， 以 评估 聚 类 。 这 样 ， 外 在 方法 的 核心 
任务 是 ， 给 定 基准 Cs ， 对 聚 类 C 赋 予 一 个 评分 0(C，Cs) 。 一 种 外 在 方法 是 否 有 效 很 大 程度 依 
赖 于 该 方法 使 用 的 度量 0。 
一 般 而 言 ， 一 种 聚 类 质量 度量 0 是 有 效 的 ， 如 果 它 满足 如 下 4 项 基本 标准 : 
。 REEE (cluster homogeneity), XBR, BAH PMA, RARI., BREN 
是 说 数据 集 忆 中 的 对 象 可 能 属于 类 别 L,, +, Lo BRS, HHH CEC, 
包含 来 自 两 个 类 天 ML, (1<i<j<n) 的 对 象 。 再 考虑 一 个 聚 类 Co ， 除 了 把 C 划分 
成 分 别 包含 L AL 中 对 象 的 两 个 篮 之 外 ， 它 等 价 于 C, 。 关 于 簇 的 同 质 性 ， 聚 类 质量 
度量 Q 应 该 赋予 C: EC 更 高 的 得 分 , MO (C, Ci) >O (Ci, Ce) 
© RMSE (cluster completeness ) 。 这 与 簇 的 同 质 性 相辅相成 。 簇 的 完全 性 要 求 对 
于 聚 类 来 说 ， 根 据 基 准 ， 如 果 两 个 对 象 属于 相同 的 类 别 ， 则 它们 应 该 被 分 配 到 相同 
的 艇 。 簇 的 完全 性 要 求 聚 类 把 〈 根 据 基准 ) 属于 相同 类 别 的 对 象 分 配 到 相同 的 簇 。 
考虑 聚 类 C! ， 它 包含 艇 C, 和 C: ， 根 据 基准 ， 它 们 的 成 员 属 于 相同 的 类 别 。 假 设 C 
BRC, 和 C, 在 C 中 合并 到 一 个 化 之 外 ， 它 等 价 于 聚 类 C, 。 关 于 繁 的 完全 性 ， 聚 类 质 
ERE 8 应 该 赋 子 C; 更 高 的 得 分 , 即 0 (C, Ce) >0 (C, C,)。 
© 碎 布袋 (rag bag) 。 在 许多 实际 情况 下 ， 常 常 有 一 种 “ 碎 布 袋 ” 类 别 ， 和 包含 一 些 不 
能 与 其 他 对 象 合并 的 对 象 。 这 种 类 别 通常 称 为 “杂项 ”、“ 其 他 ”等 。 碎 布袋 准则 是 
说 ， 把 一 个 异种 对 象 放 人 一 个 纯 的 簇 中 应 该 比 放 人 碎 布 袋 中 受 更 大 的 “处 罚 ”"。 考 
FRAC, ABE Ce Cl ， 使 得 根据 基准 ， 除 一 个 对 象 ( 记 作 o) 之 外 ，C 中 所 有 的 对 
象 都 属于 相同 的 类 别 。 考 虑 聚 类 C: ， 它 几乎 等 价 于 C, ， 唯 一 例外 是 在 C, 中 ，o 被 分 
ACE CAC, PA C' 包 含 来 自 不 同类 别 的 对 象 (根据 基准 ) ， 因 而 是 噪声 。 换 言 
Z, Q 中 的 C' 是 一 个 碎 布 袋 。 于 是 ， 关 于 碎 布 袋 准 则 ， 聚 类 质量 度量 0 应 该 赋予 C， 
更 高 的 得 分 ， 即 0 (C，Cr) >0 (C, C,)。 
© 小 簇 保持 性 (small cluster preservation) 。 如 果 小 的 类 别 在 聚 类 中 被 划分 成 小 片 ， 则 
这 些小 片 很 可 能 成 为 噪声 ， 从 而 小 的 类 别 就 不 可 能 被 该 聚 类 发 现 。 小 簇 保持 准则 是 
说 ， 把 小 类 别 划 分 成 小 片 比 将 大 类 别 划 分 成 小 片 更 有 害 。 考 虑 一 个 极端 情况 。 设 万 
是 n+2 个 对 象 的 数据 集 ， 根 据 基准 ，n 个 对 象 ou ，…，o, 属于 一 个 类 别 ， 而 其 他 两 
THRO, On 属于 另 一 个 类 别 。 假 设 聚 类 C, 有 3 个 簇 : C= 1o ，…， on。 | ， 
C = {0,.11，C3 =10,.210 RBC 也 有 3 PEC, = io，…，o | ，C = |o | ， 
Cs = 10,,1，0a4121。 换 言 之 ,Ci MA THAR, MIC. 划分 了 大 类 别 。 保 持 小 答 的 聚 
类 质量 度量 8 应 该 赋予 更 高 的 得 分 , BO (C, Cs) >0 (C, CG). 
许多 聚 类 质量 度量 都 满足 这 4 个 标准 中 的 某 些 。 这 里 ， 我 们 介绍 一 种 BCubed 精度 和 召 
回 率 ， 它 满足 这 4 个 标准 。 
BCubed 根据 基准 ， 对 给 定数 据 集 上 聚 类 中 的 每 个 对 象 估 计 精 度 和 召回 率 。 一 个 对 象 的 
精度 指示 同一 灸 中 有 多 少 个 其 他 对 象 与 该 对 象 同属 一 个 类 别 。 一 个 对 象 的 召回 率 反 映 有 多 少 
同一 类 别 的 对 象 被 分 配 在 相同 的 簇 中 。 
WD=|0,, =, 0,| 是 对 象 的 集合 ，C 是 也 中 的 一 个 聚 类 。 设 L(o ) (1<si<n) 是 基 
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准确 定 的 o; 的 类 别 ，C(o:) 是 C 中 o; 的 cluster_ID。 于 是 ， 对 于 两 个 对 象 o; 和 oj(1<i, js 
n, ij), 0, Mo, 之 间 在 聚 类 C 中 的 关系 的 正确 性 由 下 式 给 出 

1 wRL(0,) = L(0;,)&C(0,) = C(o;) 
0 其 他 


Correctness(0;,0;) = | (10. 28 ) 


BCubed 精度 定义 为 


n >» Correciness( 0,;,0;) 
Precision BCubed = = ojij Cloi) = C0)) (10. 29) 


= ll [o |i #j,C(o;) = C(o,;) | | 
BCubed 召回 率 定义 为 





a Correctness( 0; ,0,) 


1 ojij L(o;) =1(0;) 
> i — 10. 30 
n izi | {o, [i #j,L(0;) = L(0;)} | ( ) 





Recall BCubed = 


2. 内 在 方法 

当 没 有 数据 集 的 基准 可 用 时 ， 我 们 必须 使 用 内 在 方法 来 评估 素 类 的 质量 。 一 般 而 言 ， 内 
在 方法 通过 考察 篮 的 分 离 情况 和 复 的 紧凑 情况 来 评估 聚 类 。 许 多 内 在 方法 都 利用 数据 集 的 对 
象 之 间 的 相似 性 度量 。 

SHB RA (silhouette coefficient) 就 是 这 种 度量 。 对 于 n 个 对 象 的 数据 集 D, 假设 D 被 
划分 成 大 个 能 Cl ，…，Ci。 对 于 每 个 对 象 o。e D， 我 们 计算 o 5 o 所 属 的 簇 的 其 他 对 象 之 间 
的 平均 距离 c(o) 。 类 似 地 ，5(o) 是 o 到 不 属于 o 的 所 有 簇 的 最 小 平均 距离 。 假 设 o eC, 
(l<isk), Wj 





>» dist(0 ,0') 
alo) = TT (10. 31) 
而 
b(o) = min fee? -| (10. 32) 
een” |c, | 
对 象 o 的 轮廓 系数 定义 为 
s(0) = blo) -a(o) | (10. 33) 


max{a(oa),b(o)} 

轮廓 系数 的 值 在 -1 和 1 之 间 。c(o) 的 值 反映 o MRM Ret. Ke), RR 
Be. blo) 的 值 捕获 o 与 其 他 簇 的 分 离 程 度 。b(o) WERK, o FHKE. Alt, 
4o 的 轮廓 系数 值 接近 1 时 ， 包 含 o 的 艇 是 紧凑 的 ， 并 且 o 远离 其 他 艇 ,这 是 一 种 可 取 的 情 
况 。 然 而 ， 当 轮廓 系数 的 值 为 负 时 (Bl b(0) <a(o))， 这 意味 在 期 望 情况 下 ，o 距离 其 他 
簇 的 对 象 比 距离 与 自己 同 在 簇 的 对 象 更 近 。 在 许多 情况 下 ， 这 是 很 精 糕 的 ， 应 该 避免 。 

为 了 度量 素 类 中 的 秘 的 拟 合 性 ， 我 们 可 以 计算 徐 中 所 有 对 象 的 轮廓 系数 的 平均 值 。 为 了 
度量 聚 类 的 质量 ， 我 们 可 以 使 用 数据 集中 所 有 对 象 的 轮廓 系数 的 平均 值 。 轮 廓 系数 和 其 他 内 
在 度量 也 可 以 用 在 肘 方 法 中 ， 通 过 启发 式 地 导出 数据 集 的 复数 取代 簇 内 方差 之 和 。 


10.7 小 结 


。 簇 是 数据 对 象 的 集合 ， 同 一 个 徐 中 的 对 象 彼此 相似 ， 而 不 同 篮 中 的 对 象 彼此 相 异 。 将 物理 或 抽象 对 
象 的 集合 划分 为 相似 对 象 的 类 的 过 程 称 为 聚 类 。 
。 聚 类 分 析 具 有 广泛 的 应 用 ， 包 括 商务 智能 、 图 像 模 式 识 别 、Web 搜索 、 生 物 学 和 安全 。 聚 类 分 析 可 
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以 作为 独立 的 数据 挖 据 工 具 来 获得 对 数据 分 布 的 了 解 ， 也 可 以 作为 在 检测 的 能 上 运行 的 其 他 数据 挖 
掘 算法 的 预 处 理 步骤 。 

聚 类 是 数据 挖掘 研究 一 个 富有 活力 的 领域 。 它 与 机 器 学 习 的 无 监督 学 习 有 关 。 

聚 类 是 一 个 充满 挑战 的 领域 ， 其 典型 的 要 求 包 括 可 伸缩 性 、 处 理 不 同类 型 的 数据 和 属性 的 能 力 、 发 
现任 意 形状 的 簇 、 确 定 输入 参数 的 最 小 领域 知识 需求 、 处 理 噪声 数据 的 能 力 、 增 量 聚 类 和 对 输入 次 
序 的 不 敏感 性 、 聚 类 高 维 数据 的 能 力 、 基 于 约束 的 聚 类 ， 以 及 聚 类 的 可 解释 性 和 可 用 人 性。 

已 经 开发 了 许多 聚 类 算法 ， 这 些 算法 可 以 从 多 方面 分 类 ， 如 根据 划分 标准 、 秘 的 分 离 性 、 所 使 用 的 
相似 性 度量 和 聚 类 空间 。 本 章 讨论 如 下 几 类 主要 的 基本 聚 类 方法 : 划分 方法 、 层 次 方法 、 基 于 密度 
的 方法 和 基于 网 格 的 方法 。 有 些 算法 可 能 属于 多 个 类 别 。 

划分 方法 首先 创建 上 个 分 区 的 初始 集合 ， 其 中 参数 上 是 要 构建 的 分 区 数 。 然 后 ， 它 采用 选 代 重 定位 
技术 ,试图 通过 把 对 象 从 一 个 艇 移 到 另 一 个 簇 来 改进 划分 的 质量 。 典 型 的 划分 方法 包括 有 -均值 、 
一 中 心 点 、CLARANS。 

层次 方法 创建 给 定数 据 对 象 集 的 层次 分 解 。 根 据 层次 分 解 的 形成 方式 ， 层 次 方法 可 以 分 为 凝聚 的 
(AREL) 或 分 裂 的 〔 自 项 向 下 ) 。 为 了 弥补 合并 或 分 裂 的 僵硬 性 ， 凝 聚 的 层次 方法 的 聚 类 质量 
可 以 通过 以 下 方法 改进 : 分 析 每 个 层次 划分 中 的 对 象 连接 (如 Chameleon) ， 或 者 首先 执行 微 聚 类 
(也 就 是 把 数据 划分 为 “ 微 能 ") ， 然 后 使 用 其 他 的 聚 类 技术 ， 选 代 重 定位 ， 在 微 和 能 上 更 类 〔〈 如 
BIRCH) 。 

基于 密度 的 方法 基于 密度 的 概念 来 聚 类 对 象 。 它 或 者 根据 邻 域 中 对 象 的 密度 〈 例 如 DBSCAN) ， 或 
者 根据 某 种 密度 函数 (例如 DENCLUE) KERE, OPTICS 是 一 个 基于 密度 的 方法 ， 它 生成 数据 
聚 类 结构 的 一 个 增 广 序 。 

基于 网 格 的 方法 首先 将 对 象 空间 量化 为 有 限 数目 的 单元 ， 形 成 网 格 结构 ， 然 后 在 网 格 结构 上 进行 聚 
类 。STING 是 基于 网 格 方法 的 一 个 典型 例子 ， 它 基于 存储 在 网 格 单元 中 的 统计 信息 聚 类 。CLQUE 
是 基于 网 格 的 子 空间 到 类 算法 。 

聚 类 评估 估计 在 数据 集 上 进行 聚 类 分 析 的 可 行 性 和 由 聚 类 方法 产生 的 结果 的 质量 。 任 务 包 括 评估 聚 
类 趋势 、 确 定 簇 数 和 测定 聚 类 的 质量 。 


10.8 习题 
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简略 介绍 如 下 聚 类 方法 : 划分 方法 、 层 次 方法 、 基 于 密度 的 方法 和 基于 网 格 的 方法 。 每 种 给 出 一 个 
例子 。 
假设 数据 挖掘 的 任务 是 将 如 下 的 8 个 点 (用 (x, y) 代表 位 置 ) 聚 类 为 3 ME, 
A, (2,10) ,A,(2,5) ,A,(8,4) ,B, (5,8) ,B (7,5) ,B 06,4) ,C, (1,2) ,C,(4,9) 

距离 函数 是 欧 氏 距离 。 假 设 初始 我 们 选择 4, 、B, 和 C, DH MEME, Ek- 均值 算法 给 出 ; 
(a) 在 第 一 轮 执行 后 的 3 个 簇 中 心 。 
(b) 最 后 的 3 TE. 
用 一 个 例子 表明 -均值 不 能 找到 全 局 最 优 解 ， 即 不 能 最 优化 簇 内 方差 。 
对 于 -均值 算法 ， 有 趣 的 是 通过 小 心地 选择 初始 簇 中 心 ， 我 们 或 许 不 仅 可 以 加 快 算法 的 收敛 速度 ， 
而 且 能 够 保证 结果 聚 类 的 质量 。K -均值 ++ 算 法 是 -均值 算法 的 变形 ， 它 按 以 下 方法 选择 初始 中 
bo 首先 ， 它 从 数据 对 象 中 随机 地 选择 一 个 中 心 。 迭 代 地 ， 对 于 每 个 未 被 选 为 中 心 的 每 个 对 象 p， 
选择 一 个 作为 新 中 心 。 该 对 象 以 正比 于 dist(p)? 的 概率 随机 选取 ， 其 中 dist(p) Ep 到 已 选 定 的 最 近 
中 心 的 距离 。 迁 代 过 程 继续 ， 直 到 选 出 大 个 中 心 。 

解释 为 什么 该 方法 不 仅 可 以 加 快 堪 - 均值 算法 的 收敛 速度 ， 而 且 能 够 保证 最 终 聚 类 结果 的 质量 。 
给 出 PAM 的 重新 分 配 步骤 的 伪 代 码 。 
k — SÈR k- 中 心 点 算法 都 可 以 进行 有 效 的 聚 类 。 
(a) 概述 -均值 和 -中 心 点 相 比较 的 优 缺 点 。 
(b) 概述 这 两 种 方法 与 层次 聚 类 方法 (A AGNES) 相 比 有 何 优 缺 点 。 
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证 明 : 在 DBSCAN 中 ， 密 度 相连 是 等 价 关系 。 

证 明 : 在 DBSCAN 中 ， 对 于 固定 的 MinPts (AAUP ABSA e <e,， 关于 e, 和 MinPts HRC 一 定 
是 关于 e 和 MinPts HE CWFR. 

给 出 OPTICS 算法 的 伪 代 码 。 

为 什么 BIRCH 方法 在 发 现任 意 形状 的 簇 时 会 遇 到 困难 ， 而 OPTICS 却 不 会 7 对 BIRCH 方法 做 一 些 
改进 ， 使 得 它 可 以 发 现任 意 形状 的 簇 。 

给 出 CLIQUE 算法 在 所 有 子 空间 发 现 稠密 单元 步骤 的 伪 代 码 。 

指出 在 何 种 情况 下 ， 基 于 密度 的 聚 类 方法 比 基 于 划分 的 聚 类 方法 和 层次 聚 类 方法 更 适合 。 并 给 出 一 
些 应 用 实例 来 支持 你 的 观点 。 

给 出 一 个 例子 来 说 明 如 何 集成 特定 的 聚 类 方法 ， 例 如 ， 一 种 聚 类 算法 被 用 作 另 一 种 算法 的 预 处 理 步 
又。 此 外 ， 请 解释 为 什么 两 种 聚 类 方法 的 集成 有 时 会 改进 聚 类 的 质量 和 有 效 性 。 

聚 类 已 经 被 认为 是 一 种 具有 广泛 应 用 的 、 重 要 的 数据 挖掘 任务 。 对 如 下 每 种 情况 给 出 一 个 应 用 
实例 ; 

(a) 把 聚 类 作为 主要 的 数据 挖掘 功能 的 应 

(b) 把 聚 类 作为 预 处 理工 具 ， Safa: fates Hemme 

R IRR A ARA DEREAT, PAANAN, MIRKE AS 
习 的 关于 聚 类 方法 的 知识 ， 设 计 一 个 可 以 有 效 地 在 大 型 数据 立方 体 中 发 现 揽 的 聚 类 方法 。 

按 如 下 标准 对 下 列 每 种 聚 类 方法 进行 描述 : (1) 可 以 确定 的 簇 的 形状 ; (2) 必须 指定 的 输入 参数 ; 
(3) 局 限 性 。 

(a) 天 -均值 

(b) k- PLA 

(c) CLARA 

(d) BIRCH 

(e) CHAMELEON 

(£) DBSCAN 

人 有 眼 在 判断 聚 类 方法 对 二 维 数 据 的 聚 类 质量 上 是 快速 而 有 效 的 。 你 能 设计 一 个 数据 可 视 化 方法 来 使 
数据 聚 类 可 视 化 并 帮助 人 判断 三 维 数据 的 聚 类 质量 吗 ? 对 更 高 维 数据 又 如 何 ? 

假设 你 打算 在 一 个 给 定 的 区 域 分 配 一 些 自动 取款 机 (ATM) ， 使 得 满足 大 量 约束 条 件 。 住 宅 或 工作 
场所 可 以 被 聚 类 以 便 每 个 艇 被 分 配 一 个 ATM。 然 而 ， 该 聚 类 可 能 被 两 个 因素 所 约束 : (1) 障碍 物 
对 象 ， 即 有 一 些 可 能 影响 ATM 可 达 性 的 桥梁 、 河 流 和 公路 。 (2) 用 户 指定 的 其 他 约束 ， 如 每 个 
ATM 应 该 能 为 10 000 户 家 庭 服 务 。 在 这 两 个 约束 限制 下 ， 怎 样 修改 聚 类 算法 (ik -均值 ) 来 实现 
高 质量 的 聚 类 ? 

对 基于 约束 的 聚 类 ， 除 了 每 个 徐 具 有 最 小 数目 的 客户 (如 对 ATM 的 分 配 ) 的 约束 外 ， 还 可 以 有 许 
多 其 他 种 类 的 约束 。 例 如 ,约束 可 以 是 每 个 簇 中 的 客户 的 最 大 数目 ， 每 个 簇 中 客户 的 平均 收入， 每 
两 个 徐 之 间 的 最 大 距离 等 。 请 对 可 以 影响 生成 秘 的 约束 条 件 进行 分 类 ， 并 讨论 在 这 些 约束 条 件 之 下 
怎样 有 效 地 实现 聚 类 。 

设计 一 种 保护 隐私 的 聚 类 方法 ,使 得 数据 所 有 者 可 以 放心 地 让 第 三 方 来 挖掘 其 数据 以 得 到 高 质量 聚 
类 ， 而 不 必 担 心 数 据 中 某 些 私有 或 敏感 的 信息 被 泄露 出 去 。 

证 明 BCubed 度量 满足 非 本 征 聚 类 评估 方法 的 4 点 基本 要 求 。 


10.9 文献 注释 


聚 类 已 经 被 广泛 研究 了 40 多 年 ， 并 且 由 于 其 广泛 的 应 用 而 横 跨 了 许多 学 科 。 大 多 数 的 模式 分 类 和 机 器 
学 习 书 籍 都 包含 关于 聚 类 分 析 或 者 无 监督 学 习 的 章节 。 一 些 教材 专门 介绍 聚 类 分 析 ， 包 括 Hartigan 
[ Har75 ] Jain 和 Dubes[ JD88 | Kaufman 和 Rousseeuw[ KR90], ， 以 及 Arabie, Hubert 和 De Sorte[ AHS96 ] 。 
还 有 许多 关于 聚 类 方法 的 不 同方 面 的 综述 文章 ， 最 近 的 一 些 综述 包括 Jain, Murty 和 Flynn [ JMF99], 
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Parsons, Haque 和 Liu[ PHLO4 ] Jain[ Jail0], 

关于 划分 方法 , 上 -均值 算法 首先 由 Lioyd[ Llo57] 提出 ， 然 后 是 由 MacQueen[ Mac67] 提出 。Arthur 和 
Vassilvitskii[ AV07】 提出 了 上 左 - 均 值 ++ 算 法 。 一 种 过 滤 算法 使 用 空间 层次 数据 索引 加 快 秘 均值 的 计算 在 
Kanungo, Mount, Netanyahu  [KMN*02] 中 给 出 。 

PAM 和 CLARA 的 上 一 中 心 点 算法 由 Kaufman 和 Rousseeuw[ KR90] 提出 。 k- 众 数 〈 聚 类 标 称 数据 ) 和 
~ 原型 ( 案 类 混合 数据 ) 算法 由 Huang[ Hua98] 提出 。Chaturvedi 、Green 和 Carroll[ CGC94，CGCO1] 也 
独立 地 提出 了 上 上 - 众 数 聚 类 算法 。CLARANS 算法 由 Ng 和 Han[ NH94] 提出 。Ester、Kriege 和 Xu[ EKX95 ] 
提出 了 采用 有 效 的 空间 存 取 方 法 (例如 R * 树 和 聚焦 技术 ) 来 进一步 改进 CLARANS 的 性 能 。 另 一 种 基于 
《~ 均值 的 可 伸缩 的 聚 类 算法 由 Bradley, Fayyad 和 Reina[ BFR98] 提出 。 

族 聚 层次 聚 类 算法 的 早期 综述 在 Day 和 Edelsbrunner[ DE84] 中 提出 。 族 聚 层次 聚 类 (如 AGNES) 和 
分 裂 层 次 聚 类 (如 DIANA) 由 Kaufman 和 Rousseeuw[ KR90] 提出 。 改 进 层 次 聚 类 方法 的 聚 类 质量 的 一 个 
有 趣 方向 是 集成 层次 聚 类 和 基于 距离 的 迭代 重 定位 或 其 他 非 层次 的 聚 类 方法 。 例 如 ， 由 Zhang, Ramakrish- 
nan 和 Linvy[ ZRL96] 提出 的 BIRCH 在 采用 其 他 技术 之 前 ， 首 先 用 CF - 树 进 行 层 次 聚 类 。 层 次 聚 类 也 能 通 
过 复杂 的 连接 分 析 、 变 换 或 最 近邻 分 析 来 进行 ， 例 如 Guha, Rastogi 和 Shim[ GRS98] 提出 的 CURE, Guha, 
Rastogi 和 Shim[ CRS99] 提出 的 ROCK ( 聚 类 标 称 属性 ) ， 以 及 Karypis Han 和 Kumar[ KHK99 ] 提出 的 
Chameleon, 

AR FALE FB RE EA IE ER A A E RAAE RER KRAHE hy Friedman[ Fri03 ] Heller 和 
Ghahramani{ HG05] F£., 

关于 基于 密度 的 聚 类 方法 ，Ester、 Kriegel | Sande 和 Xu[ EKSX96] 提出 了 DBSCAN, Ankerst, Breunig , 
Kriegel 和 Sander[ ABKS99] 开发 了 一 种 能 排序 方法 OPTICS, Cr TRE REM RK, MRS 
明 。 基 于 一 组 密度 分 布 函数 的 DENCLUE 算法 由 Hinneburg 和 Keim[ HK98] 提出 。 Hinneburg 和 Gabriel 
[HG07] 开发 了 DENCLUE 2.0， 它 包含 了 一 个 新 的 用 于 高 斯 核 的 息 山 过 程 ， 自 动 调整 步 长 。 

一 种 基于 网 格 的 多 分 辩 率 方法 STING 由 Wang, Yang 和 Muntz[ WYM97] 提出 ， 它 在 网 格 单元 中 收集 统 
计 信 息 。WaveCluster 由 Sheikholeslami, Chatterjee 和 Zhang[ SCZ98] 提出 ， 是 一 种 通过 小 波 变 换 来 变换 原 特 
征 空间 的 多 分 辩 率 的 聚 类 方法 。 

聚 类 标 称 数据 的 可 伸缩 方法 由 Gibson, Kleinberg 和 Raghavan [ GKR98 ], Guha, Rastogi 和 Shim 
[GRS99] ， 以 及 Ganti, Gehrke 和 Ramakrishnan[ CCR99] 研究 。 还 有 -一些 其 他 的 聚 类 范 型 。 例 如 ， 模 糊 了 
类 方法 在 Kaufman 和 Rousseeuw[ KR90] ，Bezdek[ Bez81], ， 以 及 Bezdek 和 Pal[ BP92] 中 进行 了 讨论 。 

关于 高 维 聚 类 ， 一 种 称 做 CLIQUE 的 基于 先 验 的 维 增长 的 子 空间 聚 类 算法 由 Agrawal, Gehrke. Gunopu- 
los 和 Raghavan[ AGGR98] 提出 。 它 集成 了 基于 密度 和 基于 网 格 的 聚 类 方法 。 

当前 的 研究 已 经 发 展 到 对 流 数 据 的 聚 类 (Babcock, Badu 和 Datar 等 [BBD+02] ) Guha, Mishra, Mot- 
wani 和 O’ Callaghan[ GMMO00] 以 及 O’ Callaghan, Mishra, Motwaini 等 [OMM “02] 提出 了 一 种 基于 -中 
位 数 的 数据 流 聚 类 方法 。Aggarwal、Han Wang 和 Yul AHWY03] 提出 了 一 种 针对 演变 的 数据 流 聚 类 的 广 
o Aggarwal, Han, Wang 和 Yu[ AHWY04a] 提出 了 一 种 对 高 维 数据 流 投影 聚 类 的 框架 。 

聚 类 评估 在 少量 专著 和 综述 中 有 涉及 ， 如 Jain 和 Dubes [ JD88 ] Halkidi, Batistakis 和 Vazirgiannis 
L HBV01] 。 聚 类 质量 评估 的 外 在 方法 被 广泛 考察 ， 最 近 的 一 些 研究 包括 Meila[ Mei03 Mei05], Amig6、 
Gonzalo, Artiles 和 Verdejo[ AGAV09 ] 。 本 章 介 绍 的 4 个 基本 准则 在 Amigó, Gonzalo, Artiles 和 Verdejo 
Amigó, Gonzalo, Artiles 和 Verdejo[ AGAV09] 中 有 精确 的 描述 ， 而 一 些 单个 的 准则 以 前 也 被 提 及 ,例如 
Meila[ Mei03 ] Rasenberg 和 Hirschberg[ RH07], Bagga 和 Baldwin[ BB98 ] 引进 BCubed 度量 。 轮 廊 系 数 在 
Kaufman 和 Rousseeuw[ KR90] 中 有 所 介绍 。 
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高 级 聚 类 分 析 


在 第 10 章 中 ， 我 们 已 经 学 习 了 聚 类 分 析 的 原理 。 本 章 ， 我 们 将 讨论 聚 类 分 析 的 高 级 课 
题 。 我 们 主要 考察 如 下 四 方面 。 

。 基于 概率 模型 的 聚 类 : 11. 1 节 介 绍 导出 簇 的 一 般 框 架 和 方法 ， 其 中 每 个 对 象 都 指派 
了 一 个 属于 徐 的 概率 。 基 于 概率 模型 的 育 类 广泛 地 用 于 许多 数据 挖 抉 应 用 ， 如 文本 
挖掘。 

。 聚 类 高 维 数据 : 当 维度 很 高 时 ， 传 统 的 距离 度量 可 能 被 噪声 所 左右 。11. 2 节 介 绍 在 
高 维 数据 上 进行 聚 类 分 析 的 基本 方法 。 

。 聚 类 图 和 网 络 数据 : 图 和 网 络 数据 在 应 用 中 日 趋 流行 ， 如 联机 社会 网 络 、 万 维 网 和 
数字 图 书馆 。 在 11. 3 节 ， 我 们 将 学 习 聚 类 图 和 网 络 数据 的 关键 问题 ， 包 括 相似 性 度 
BARRE. 

。 具有 约束 的 聚 类 : 在 迄今 为 止 的 讨论 中 , 我 们 都 未 在 聚 类 中 假定 任何 约束 。 然 而 ， 
在 许多 实际 应 用 中 ， 可 能 存在 各 种 约束 。 这 些 约束 可 能 源 于 背景 知识 或 对 象 的 空间 
分 布 。 在 11.4 节 ， 我 们 将 学 习 如 何以 各 种 不 同类 型 的 约 进行 聚 类 分 析 。 

本 章 结束 时 ， 你 将 会 对 高 级 聚 类 分 析 的 问题 和 技术 有 很 好 的 理解 。 


11.1 基于 概率 模型 的 聚 类 


迄今 为 止 ， 在 我 们 讨论 的 所 有 聚 类 分 析 方 法 中 ， 每 个 数据 对 象 只 能 被 指派 到 多 个 能 中 的 
一 个 。 这 种 簇 分 配 规 则 在 某 些 应 用 中 是 必要 的 ， 如 把 客户 分 配给 销售 经 理 。 然 而 ， 在 其 他 应 
用 中 ， 这 种 僵硬 的 要 求 可 能 并 非 我 们 期 望 的 。 本 节 ， 我 们 将 解释 在 某 些 应 用 中 需要 模糊 或 灵 
活 的 繁 指派 ， 并 且 介 绍 计算 概率 簇 和 指派 的 一 般 方法 。 

“在 何 种 情况 下 ， 一 个 数据 对 象 属于 多 个 徐 ?” 考 虑 例 11. 1。 

例 11.1 聚 类 产品 评论 。AllElectronics 有 一 个 网 店 ， 那 里 顾客 不 仅 在 线 购 物 ， 而 且 还 
对 产品 发 表 评 论 。 并 非 每 种 产品 都 收 到 评论 ， 某 些 产 品 可 能 有 很 多 评论 ， 而 其 他 一 些 没有 或 
很 少 。 此 外 ， 一 个 评论 可 能 涉及 多 种 产品 。 这 样 ， 作 为 AlElectronics 的 评论 编辑 ， 你 的 任务 
是 对 这 些 评论 进行 聚 类 。 

理想 情况 下 ， 一 个 簇 关 于 一 个 主题 例如， 一 组 产品 、 服 务 或 高 度 相关 的 问题 。 对 于 你 
的 任务 而 言 ， 把 评论 互 斥 地 指派 到 一 个 徐 效 果 并 不 好 。 假 设 关 于 照相 机 和 摄像 机 有 一 个 簇 ， 
关于 计算 机 有 另 一 个 化 。 如 果 一 个 评论 谈论 摄像 机 与 计算 机 的 兼容 性 ， 怎 么 办 ? 该 评论 与 这 
两 个 秘 相 关 ， 而 并 不 互 斥 地 属于 任何 一 个 簇 。 

你 可 能 愿意 使 用 一 种 聚 类 方法 ， 它 允许 一 个 评论 属于 多 个 簇 ， 如 果 该 评论 确实 涉及 多 个 
主题 的 话 。 为 了 反映 一 个 评论 属于 某 个 簇 的 强度 ， 你 想 在 评论 到 秘 的 指派 上 附加 一 个 代表 这 
种 部 分 隶属 关系 的 权重 。 = 

这 种 一 个 对 象 可 能 属于 多 个 簇 的 情况 在 许多 应 用 中 经 常 出 现 。 例 11.2 也 解释 了 这 种 
现象 。 

例 11.2 研究 用 户 搜索 意图 的 聚 类 。AllElectronics 的 网 店 在 日 志 中 记录 了 所 有 顾客 搜 
索 和 购买 行为 。 一 项 重要 的 数据 控 据 任务 是 使 用 日 志 数据 进行 归 类 和 理解 用 户 搜索 意图 。 例 
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如 ， 考 虑 一 次 用 户 会 话 〈 用 户 与 网 上 商店 交互 的 短 周期 ) 。 该 用 户 是 在 搜索 一 种 产品 ， 在 不 
同 的 产品 之 间 进 行 比较 ， 还 是 在 寻找 客户 支持 信息 ? 这 里 ， 聚 类 分 析 是 有 用 的 ， 因 为 很 难 完 
全 预先 确定 用 户 的 行为 模式 。 一 个 包含 类 似 用 户 搜 索 轨迹 的 簇 可 能 代表 类 似 的 用 户 行为 。 

然而 ， 并 非 每 个 会 话 都 属于 一 个 徐 。 例 如 ,假设 涉及 购买 数码 相机 的 会 话 形成 一 个 
禾 ， 而 比较 笔记 本 电脑 的 用 户 会 话 形 成 另 一 个 艇 。 如 果 一 个 用 户 在 一 次 会 话 订购 了 一 部 
数码 相机 ， 并 且 同 时 比较 了 多 种 笔记 本 电脑 ， 怎 么 办 ?这 种 会 话 应 该 在 某 种 程度 上 属于 
这 两 个 簇 。 m 

本 节 ， 我 们 将 系统 地 研究 允许 一 个 对 象 属于 多 个 复 的 聚 类 主题 。 我 们 从 11.1.1 节 讨 论 
模糊 能 的 概念 开始 。 然 后 ， 在 11. 1. 2 节 把 这 一 概念 推广 到 基于 概率 模型 的 和 能。 在 11.1.3 
H, 我们 介绍 期 望 极 大 化 算法 ， 挖 气 这 种 簇 的 一 般 框架 。 


11.1.1 ”模糊 入 

给 定 一 个 对 象 集 X= [x ，…，x,| ， 模 糊 集 S 是 的 一 个 子 集 ， 它 介 许 X 中 的 每 个 对 象 
都 具有 一 个 属于 的 0 到 1 之 间 素 属 度 。 形 式 地 ， 一 个 模糊 集 § 可 以 用 一 个 函数 严 ， 
[0, 1] 建 模 。 

例 11. 3 模糊 集 。 一 种 数码 相机 的 销售 量 越 大 ， 该 数码 相机 就 越 流 行 。 在 AllElectron- 
ies 中 ， 给 定数 码 相机 o 的 销售 量 ， 我 们 可 以 使 用 如 下 公式 来 计算 。 的 流行 程度 ， 

1 wR o 销售 了 1000 部 或 更 多 
pence) | 如 果 o 销售 了 i(i < 1000) 部 CIL. 1) 

函数 pop( ) 定义 了 一 个 流行 的 数码 相机 的 模糊 集 。 例 如 ， 假 设 AllElectronics 的 数码 相 
机 销售 显示 在 表 11. 1 中 。 流 行 的 数码 相机 的 模糊 集 是 14(0.05),B8(1),，C(0.86)， 
D(0.27) 1 ， 括 号 中 的 是 素 属 度 。 ù 


表 11.1 数码 相机 及 其 在 AllElectronics 的 销量 


数码 相机 销量 销量 
A 50 c 860 
B 1320 D 270 


我 们 可 以 把 模糊 集 概念 用 在 聚 类 上 。 也 就 是 说 ， 给 定 对 象 的 集合 ， 一 个 艇 就 是 对 象 的 一 
个 模糊 集 。 这 种 敌 称 做 模糊 能。 因此 ， 一 个 聚 类 包含 多 个 模糊 簇 。 

给 定 对 象 集 o ，…，o,, k PIRRE C, =, C, 的 模糊 聚 类 可 以 用 一 个 划分 矩阵 
M=[w;] (1sisn, lxj<k) RR. HF wE o TERME C 的 隶属 度 。 划 分 矩阵 应 该 满 

© 对 于 每 个 对 象 0; MRC, O<w, <1, K—-ERA AMEE, 


© 对 于 每 个 对 象 oi， 之 w; =1。 这 一 要 求 确保 每 个 对 象 同等 地 参与 聚 类 。 





e 对 于 每 个 能 0，0 < Yay <n, XRT ETE, 最少 有 一 个 对 象 ， 其 素 
REEF 
例 11. 4 HME (BLU AlElectronics 的 网 店 有 6 个 评论 。 表 11. 2 显示 了 包含 在 这 些 评 
论 中 的 关键 词 。 
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表 11.2 评论 和 所 用 关键 词 的 集合 








关键 词 
数码 相机 、 镜 头 、 计 算 机 
计算 机 、CPU 

计算 机 、 计 算 机 游戏 






关键 词 
数码 相机 、 镜 头 
数码 相机 

镜头 








R 
R, 










我 们 可 以 把 这 些 评论 分 成 两 个 模糊 能 C, 和 Co C 关于 数码 相机 和 镜头 ， 而 C, 关于 计 
算 机 。 划 分 矩阵 是 


- = wl ooo 


o ouien = 


RE, RNA “HI” M RL” EAE C, ORE, Tt HEI” PEW C, 
的 特征 。 对 于 评论 R AR C(1<i<6, 1<j<2), ws 定义 为 





IR NG, | IR NC, | 
~ IR N CO, UG = ~ TR, [数码 相机 ， BL, 计算 机 上 | 
在 这 个 模糊 聚 类 中 ， 评 论 R, SPCR ES AS IBF C, 和 C,。 a 
“如 何 评估 模糊 聚 类 描述 数据 集 的 好 坏 程度 ?” 考 虑 对 象 集 o ---, 0, Mk TEC, e, 


C, 的 模糊 聚 类 C。 令 M = [wy] (1<isn, 1<j<k) 为 划分 矩阵 。 设 ce o, c 分 别 为 能 
C1，…，Ci 的 中 心 。 这 里 ， 中 心 可 以 定义 为 均值 或 中 心 点 ， 或 者 用 仅 限 于 具体 应 用 的 其 他 
方法 定义 。 

正如 在 第 10 章 所 讨论 的 ， 对 象 与 其 被 指派 到 的 灸 的 中 心 之 间 的 距离 或 相似 度 可 以 用 来 
度量 该 对 象 属于 艇 的 程度 。 这 一 思想 可 以 扩充 到 模糊 聚 类 。 对 于 任意 对 象 o MBC, mR 
ws >0， 则 dist (o;，c;) 度量 oi 被 Ci; 代表， 因而 属于 得 C 的 程度 。 由 于 一 个 对 象 可 能 参与 
多 个 和 能， 所 以 用 隶属 度 加 权 的 到 簇 中 心 的 距离 之 和 捕获 对 象 拟 合 聚 类 的 程度 。 

对 于 对 象  ， 误 差 的 平方 和 (SSE) 由 下 式 给 由 


SSE(0,;) = J, waist o ,0;)? (11.2) 
HH, SM p(p>1) 控制 隶属 度 的 影响 。 p RRK, RABE MRK, W C 的 SSE 是 

SSE(C,) = 并 wain(o 46)" (11.3) 
最 后 ， 聚 类 C 的 SSE 定义 为 

SSE(C) = > Y, disio, 5c)" (11. 4) 


聚 类 的 SSE F 可 以 用 来 度量 模糊 育 类 对 数据 集 的 拟 合 程度 。 

模糊 聚 类 又 称 软 聚 类 ( soft clustering) ， 因 为 它 允 许 一 个 对 象 属于 多 个 徐 。 容 易 看 出 传 
统 的 〈 硬 ) 聚 类 强制 每 个 对 象 互 斥 地 仅 属于 一 个 簇 ， 这 是 模糊 聚 类 的 特例 。 我 们 把 如 何 计 
算 模糊 聚 类 的 讨论 推迟 到 11. 1. 3 节 。 
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11.1.2 基于 概率 模型 的 聚 类 

“wR (11. 1. 1 节 ) 提供 了 一 种 灵活 性 ， 允 许 一 个 对 象 属于 多 个 徐 。 有 没有 一 个 说 明 
聚 类 的 一 般 框架 ， 其 中 对 象 可 以 用 概率 的 方法 参与 多 个 徐 ?” 本 章 ， 我 们 介绍 基于 概率 模型 
的 聚 类 的 一 般 概念 来 回答 这 一 问题 。 

正如 在 第 10 章 讨论 的 那样 ， 我 们 之 所 以 在 数据 集 上 进行 聚 类 分 析 ， 是 因为 我 们 假定 数 
据 集中 的 对 象 属于 不 同 的 固有 类 别 。 回 忆 一 下 ， 可 以 使 用 聚 类 趋势 分 析 (10.6.1 节 ) 考查 
数据 集 是 否 包含 形成 有 意义 的 簇 的 对 象 。 这 里 ， 隐 藏 在 数据 中 的 固有 类 别 是 潜在 的 ， 因 为 我 
们 不 可 能 直接 观测 到 它们 ， 而 必须 使 用 观测 数据 来 推断 。 例 如 ， 隐 藏 在 AllElectronics 网 店 的 
评论 集中 的 主题 是 潜在 的 ， 因 为 我 们 不 能 直接 看 到 这 些 主 题 。 然 而 ， 我 们 可 以 从 评论 中 推导 
出 这 些 主题 ， 因 为 每 个 评论 都 是 关于 一 个 或 多 个 主题 的 。 

因此 ， 聚 类 分 析 的 目标 是 发 现 隐藏 的 类 别 。 作 为 聚 类 分 析 主 题 的 数据 集 可 以 看 做 隐藏 的 
类 别 的 可 能 实例 的 一 个 样本 ,但 是 没有 类 标号 。 由 聚 类 分 析 导 出 的 乌 使 用 数据 集 推断 ， 并 且 
旨 在 逼近 隐藏 的 类 别 。 

从 统计 学 讲 ， 我 们 可 以 假定 隐藏 的 类 别 是 数据 空间 上 的 一 个 分 布 ， 可 以 使 用 概率 密度 函 
数 (或 分 布 函数 ) 精确 地 表示 。 我 们 称 这 种 隐藏 的 类 别 为 概率 答 (probabilistic cluster), Xf 
于 一 个 概率 簇 C， 它 的 密度 函数 /和 数据 空间 的 点 。, flo) 是 C 的 一 个 实例 在 。 上 出 现 的 相 
对 似 然 。 

例 11.5 概率 簇 。 假 设 AllElectronics 销售 的 数码 相机 可 以 划分 成 两 个 类 别 : 业余 型 C， 
(例如 ,傻瓜 相机 ) 、 专 业 型 C。( 例如 ， 单 镜头 反光 相机 )。 图 11. 1 显示 了 它们 各 自 的 〈 关 
于 属性 price) 密度 函数 /| Af 

概念 








i » price 
1000 P 


图 11. 1 WARRE E E R 


对 于 一 个 价格 值 ， 如 1000 美元 , fi (1000) 是 价格 为 1000 美元 的 业余 型 相机 的 相对 似 
然 。 类 似 地 , (1000) 是 价格 为 1000 美元 的 专业 型 相机 的 相对 似 然 。 

概率 密度 函数 和 . 不 能 被 直接 观测 到 。AllElectronics 只 能 通过 分 析 其 销售 的 数码 相 
机 的 价格 推断 这 些 分 布 。 此 外 ， 一 个 相机 常常 并 不 与 确定 的 类 别 〈 例 如 , “业余 型 ”或 “ 专 
WE) 一 致 。 通 常 ， 这 些 类 别 基于 用 户 的 背景 知识 ， 并 且 因 人 而 异 。 例 如 ， 专 业 '- 业余 段 
的 相机 可 能 被 某 些 顾 客 看 做 处 于 业余 型 的 高 端 ， 而 被 其 他 顾客 视 为 专业 型 的 低 端 。 

作为 AllElectronics 的 分 析 员 ， 你 可 能 把 每 个 类 别 看 做 一 个 概率 徐 ， 并 用 相机 价格 上 的 聚 
类 分 析 来 逼近 这 些 类 别 。 a 

HBL BRAT AB GE RAR) TER k MERE C, ，…，C。 对 于 个 对 象 的 数据 集 D， 我 们 
可 以 把 D 看 做 这 些 秘 的 可 能 实例 的 一 个 有 限 样 本 。 从 概念 上 讲 ， 我 们 可 以 假定 D 按 如 下 方 
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法 形成 。 每 个 能 C(1 <j Sk) BBS — TSE AUA IS BE o; 相关 联 。 通 常 假定 w, ，…， 
o, 作为 问题 设置 的 一 部 分 给 定 ， 并 且 yo = 1, HAMARRE k TRE. KH, 2 


数 w, ARTATI C 的 相对 总 体 的 背景 知识 。 

然后 ， 我 们 运行 如 下 两 步 过 程 ， 产生 九 的 一 个 对 象 。 这 些 步骤 总 共 执 行 寺 次 ， 产 生姜 
的 n 个 对象  ，…，o,。 

(1) 按照 概率 o, =, w, WTI Co 

(2) 按照 C 的 概率 密度 函数 f， 选 择 一 个 C, 的 实例 。 

该 数据 产生 过 程 是 混合 模型 的 基本 假定 。 混 合 模 型 假定 观测 对 象 集 是 来 自 多 个 概率 簇 的 
实例 的 混合 。 从 概念 上 讲 ， 每 个 观测 对 象 都 独立 地 由 两 步 产生 : 首先 ， 根 据 秘 的 概率 选择 一 
MBAR; 然后 ， 根 据 选 定 簇 的 概率 密度 函数 选择 一 个 样本 。 

给 定数 据 集 D 和 所 要 求 的 簇 数 k， 基 于 概率 模型 的 聚 类 分 析 的 任务 是 推导 出 使 用 以 上 数 
据 产 生 过 程 最 可 能 产生 DD 的 k 个 概率 徐 。 剩 下 的 一 个 重要 问题 是 ， 如 何 度 量 个 概率 簇 的 集 
合 和 它们 的 概率 产生 观测 数据 集 的 似 然 。 

考虑 上 个 概率 徐 C, ，…，C 的 集合 C, k MRE RAI, od A ME 
们 的 概率 分 别 为 w ，…，ws。 对 于 对 象 。，o RH C (1 <j<k) 产生 的 概率 为 P(o | C) = 
wfo) Aik, o 被 艇 的 集合 C 产生 的 概率 为 


P(o|C) = Zoso) (11.5) 
由 于 我 们 假定 对 象 是 独立 地 产生 的 ， 因此 对 于 ?个 对 象 的 数据 集中 = o, 5 Ot, RIA 
P(D|C) = IGO IC) = I] È oho) (11.6) 


现在 ， 数据 集 D 上 的 基于 概率 模型 的 聚 类 分 析 的 任务 是 ， 找 出 上 个 概率 艇 的 集合 C， 使 
得 P(D|C) 最 大 化 。 最 大 化 P(D | C) 通常 是 难处 理 的 ， 因 为 通常 来 说 ， 秘 的 概率 密度 函 
数 可 以 取 任 意 复杂 的 形式 。 为 了 使 得 基于 概率 模型 的 聚 类 是 计算 可 行 ， 我 们 通常 折 中 ， 假 定 
概率 密度 函数 是 一 个 参数 分 布 。 

设 o，…，o 是 个 观测 对 象 ，@, o, O, 是 个 分 布 的 参数 ， 分 别 令 O = fo, 
0.1 ,=109,,，…，0O;1。 于 是 ， 对 于 任意 对 象 o;e O(1<isn)，(11.5) 式 可 以 改写 为 


k 
P(0,|@) = > @P;(o; | @;) (11.7) 


其 中 , 已 (o | @)) 是 。 使 用 参数 8@,， 由 第 j 个 分 布 产生 的 概率 。 因 此 ，(11.6) 式 可 以 改 
写 为 


P(O198) = J] X oP, 10) (11.8) 


使 用 参数 概率 分 布 模型 ， 基 于 概率 模型 的 聚 类 分 析 任务 是 推导 出 最 大 化 (11.8) 式 的 
参数 集 @。 

例 11.6 单 变 量 高 斯 混合 模型 。 让 我 们 用 单 变量 高 斯 分 布 作为 例子 。 也 就 是 说 ， 我 们 
假定 每 个 复 的 概率 密度 函数 都 服从 一 维 高 斯 分 布 。 每 个 簇 的 概率 密度 函数 的 两 个 参数 是 中 心 
u 和 标准 差 oj(1 <j<k)。 我 们 把 参数 记 作 O, = (由 ，o) ，8 = 19, ，…，@,| 。 设 数据 集 为 
0=|o,,，…，0,|， 其 中 o.(1<isn) 是 实数 。 对 于 每 个 点 o;e O， 我 们 有 
1 _(o,-p,)" 


P(o;|0;) = Yano 20" (11.9) 
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假定 每 个 乌 都 有 相同 的 概率 ， 即 w = ws =… =w = 二， 并 把 (11.9) 式 代入 (11.7) R, 
我 们 有 
P(o, | Ly 1 Ser (11. 10) 
(0; @) = TÈ Jima, o . 
使 用 (11.8) xt, RNA 
acm)? 
pole) = +I ae (11. 11) 





i=l j=l T 


BREER SL E FRERE E 但 ,使 得 (11.11) REAME. m 


11.1.3 期 望 最 大 化 算法 


“如 何 计算 模糊 聚 类 和 基于 概率 模型 的 聚 类 ?” 本 节 ， 我 们 介绍 一 种 原理 性 方法 。 我 们 
从 回顾 第 10 章 研 究 的 上 - 均值 聚 类 问题 和 上 大- 均值 算法 开始 。 
容易 证 明 , 下- 均值 聚 类 是 模糊 聚 类 的 一 种 特例 (习题 11. 1) 。 天 -均值 算法 迭代 地 执行 
直到 不 能 再 改进 聚 类 。 每 次 迭代 包括 两 个 步 又 : 
期 望 步 (E - 步 ) : 给 定 当前 的 徐 中 心 ， 每 个 对 象 都 被 指派 到 徐 中 心 离 该 对 象 最 近 的 秘 。 
这 里 ， 期 望 每 个 对 象 都 属于 最 近 的 簇 。 
最 大 化 步 (M - 步 ) : MERGE, WEAVE, BKB EY, HB RAE 
对 象 到 该 新 中 心 的 距离 之 和 最 小 化 。 也 就 是 说 ， 将 指派 到 一 个 篮 的 对 象 的 相似 度 最 大 化 。 
我 们 可 以 推广 这 一 两 步 过 程 来 处 理 模糊 聚 类 和 基于 概率 模型 的 聚 类 。 一 般 而 言 ， 期 望 - 
最 大 化 (Expectation- Maximization, EM) 算法 是 一 种 框架 ， 它 逼近 统计 模型 参数 的 最 大 似 然 
或 最 大 后 验 估计 。 在 模糊 或 基于 概率 模型 的 聚 类 的 情况 下 ，EM 算法 从 初始 参数 集 出 发 ， 并 
且 和 迭代 直到 不 能 改善 聚 类 ， 即 直到 聚 类 收敛 或 改变 充分 小 〈 小 于 一 个 预先 设 定 的 冰 值 ) 。 每 
次 迭代 也 由 两 步 组 成 : Y 
© 期 望 步 根 据 当 前 的 模糊 聚 类 或 概率 艇 
的 参数 ， 把 对 象 指派 到 簇 中 。 
© 最 大 化 步 发 现 新 的 聚 类 或 参数 ， 最 小 @ 5 (4, 10) 
化 模糊 聚 类 的 SSE ( (11.4) 式 ) 或 基 @ 4 (14, 8) 
于 概率 模型 的 聚 类 的 期 望 似 然 。 全 < (9, 6) 
例 11.7 使 用 EM 算法 的 模糊 聚 类 。 考 虑 @4a 3,3) 
图 11.2 中 的 6 个 点 ， 其 中 显示 了 点 的 坐标 。 让 我 
们 使 用 EM 算法 计算 两 个 模糊 聚 类 。 “ 
我 们 随机 地 选择 两 个 点 ， 如 c; =a, c =b, 图 11.2 模糊 育 类 的 数据 集 
作为 两 个 能 的 初始 中 心 。 第 一 次 和 迭代 执行 期 望 步 和 最 大 化 步 的 细节 如 下 ; 
在 E- 步 中 ， 对 于 每 个 点 ， 我 们 计算 它 属于 每 个 徐 的 隶属 度 。 对 于 任意 点 。， 我 们 分 别 
以 隶属 权重 


@e (18, 11) 


@/ 21, 





—» ¥ 


1 
dist(o,c,)’ dist(o,c,)? dist(o,c,)? 





1 + 1 ~ dist(o,c,)? +dist(o,c,)* — dist(o,c,)? + dist(o,c,)? 
dist(o,¢,)° dist(o,c,)? 
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把 。 指派 到 < Filey, HP dist(,) 是 欧 氏 耻 离 。 其 理由 是 ， 如 果 o。 靠 近 c1， 并 且 dilo, c) 
小 , 则 。 关 于 的 隶属 度 应 该 高 。 我 们 也 可 以 规范 化 未 属 度 ， 使 得 一 个 对 象 的 素 属 度 之 和 
等 于 1。 

WER a, RIB wa =l, w,.,=0, Ma 互 尺 地 属于 c1。 对 于 点 5， 我 人 有 ma =0, 
ws =1。 对 于 点 6， 我 人 有 w= 有 4 =0.48，w。 = 友人 =0.52。 其 他 点 的 隶属 度 显 


WER 11. 3 的 划分 和 矩阵 中 。 
表 11.3 EM 算法 前 3 次 迭代 的 中 间 结 果 











选 代 E-% M - 步 
) wef 0 0.48 0.42 0.41 rel cı = (8.47, 5.12) 
Lo 1 0.52 0.58 0.59 0.53 c, = (10.42, 8.99) 
2 yr- [973 0.49 0.91 0.26 0.33 0.42 cı = (8.51, 6.11) 
~ 10.27 0.51 0.09 0.74 0.67 0.58 c, = (14.42, 8.69) 
3 mr = [0% 0.76 0.99 0.02 0.14 oo cı = (6.40, 6. 24) 
~ £0.20 0.24 0.01 0.98 0.86 0.77 c, = (16.55, 8.64) 


在 M- 步 中 ,我 们 根据 划分 矩阵 重新 计算 复 的 形 心 ， 包 小 化 (11.4) 式 的 SSE。 新 的 
形 心 应 该 调整 为 


> Wg? 
c = Stee (11. 12) 


其 中 , /=1，2。 在 这 个 例子 中 ， 
(+ x3 +0? x4 +0.48? x9 +0.42? x 14 +0.41? x 18 +0.47? x21 
1? +0? + 0.487 +0. 42? +0.41? +0. 47? , 
1°? x3 +0? x 10 +0.48? x6 +0.42? x8 +0.41? x11 +0.47 x7 
17 +0? +0. 48? +0. 42? +0.41? +0. 47? 








Cl 三 























= (8. 47,5. 12) 
并 且 
e, = (© x3 +1? x4 +0.52 x9 + 0. 58? x 14 +0. 59° x 18 + 0. 53? x21) 
0 + 1° +0. 52° +0.58° + 0.59? +0. 53 
(© x3+1 x10 +0.52? x6 +0.58? x8 +0.59? x 11 +0. 53? x1) 
0° +17 +0. 52? +0. 58° +0. 59? +0. 53? 
= (10. 42,8. 99) 
我 们 重复 该 和 迭代， 其 中 每 次 迭代 包含 一 个 下 - 步 和 一 个 M- 步 。 表 11.3 显示 了 前 3 次 
迭代 的 结果 。 当 和 化 中 心 收 敛 或 变化 足够 小 时 ， 算 法 停止 。 a 


“如 何 使 用 EM 算法 计算 基于 概率 模型 的 聚 类 ?” 让 我 们 使 用 单 变量 高 斯 混合 模型 a 
11.6) 进行 解释 。 

例 11.8 对 混合 模型 使 用 EM 算法 。 给 定数 据 对 象 集 O = 1o ，…，o,} ， 我 们 希望 控 
掘 参数 集 @ = 1@8,，…，@4| ,使 得 (11.11) 式 的 P(O |8) 最 大 化 ， 其 中 @,= (jy,， o) 分 
别 是 第 (1<j<k) 个 单 变量 高 斯 分 布 的 均值 和 标准 差 。 

我 们 可 以 使 用 EM 算法 。 把 随机 值 作为 初 值 赋予 参数 @， 然 后 迭代 地 执行 E - 步 和 M- 
步 ， 直 到 参数 收敛 或 改变 充分 小 。 


507 


508 





330 - 第 11 章 BARKS 


在 下 - 步 中 ， 对 于 每 个 对 象 o,e O(1<i<n)， 我 们 计算 o 属于 每 个 分 布 的 概率 ， 即 


P(@;|0;,0) =- Plo. 1 @) (11. 13) 


5 P(o, | ©@,) 
在 M- 落 中 ,我 们 调整 参数 @， 使 得 (11.11) 式 的 P(O1@) 期 望 似 然 最 大 化 。 这 可 
以 通过 设置 


Le peloe) _ 1 27101.) 











i? isl 
wy = 4 Zo, SOl LA (11. 14) 
km" P(O,1 0,0) > P(O; | 0,,0) 
i=l 
和 
>» P(@;|0,,@) (0, - u)? 
a; = st n (11.15) 
>» P(O; | 0,0) 
i=l 
来 实现 。 


在 许多 应 用 中 ， 基 于 概率 模型 的 聚 类 已 经 表现 出 了 很 好 的 效果 ， 因 为 它 比划 分 方法 和 模 
糊 聚 类 方法 更 通用 。 它 的 一 个 突出 优点 是 ， 使 用 合适 的 统计 模型 以 捕获 潜 在 的 匀 。EM 算法 
因 其 简洁 性 ， 已 经 广泛 用 来 处 理 数据 挖掘 和 统计 学 的 许多 学 习 问 题 。 注 意 ， 一 般 而 言 ，EM 
算法 可 能 收敛 不 到 最 优 解 ， 而 是 可 能 收敛 于 局 部 极 大 。 已 经 考察 了 许多 避免 收敛 于 局 部 极 大 
的 启发 式 方法 。 例 如 ， 我 们 可 以 使 用 不 同 的 随机 初始 值 ， 运 行 EM 过 程 多 次 。 此 外 ， 如 果 分 
布 很 多 或 数据 集 只 包含 很 少 观测 数据 点 ， 则 EM 算法 的 计算 开销 可 能 很 大 。 


11.2 聚 类 高 维 数据 
ESHE, 我 们 研究 过 的 聚 类 方法 在 维度 不 高 时 ， 即 少 于 10 个 属性 时 ， 运 行 良好 。 然 
而 ， 存 在 一 些 重要 的 高 维 应 用 。“ 如 何在 高 维 数 据 上 进行 聚 类 分 析 ?” 
本 节 ， 我们 学 习 素 类 高 维 数据 的 方法 。11.2.1 节 从 主要 挑战 和 使 用 的 方法 概述 开始 。 
高 维 数据 聚 类 方法 可 以 分 成 两 类 : 子 空间 聚 类 方法 (11.2.2 节 ) 和 维 归 约 方法 (11.2.3 
节 )。 


11.2.1 FERRE: 问题 、 挑战 和 主要 方法 


在 介绍 高 维 数据 聚 类 的 具体 方法 之 前 ， 让 我 们 先 用 例子 说 明 高 维 数据 聚 类 分 析 的 必要 
性 ,考察 需要 新 方法 的 挑战 。 然 后 ， 我 们 根据 它们 是 否 在 原 空间 的 子 空间 中 搜索 人 能 ， 或 者 是 
否 创建 新 的 较 低 维 的 空间 并 在 其 中 搜索 和 能， 将 主要 方法 加 以 分 类 。 

在 一 些 应 用 中 ， 数 据 对 象 可 能 用 10 个 或 更 多 属性 描述 。 我 们 称 这 种 对 象 在 所 谓 的 高 维 
数据 空间 中 。 

例 11.9 高 维 数据 和 它们 的 聚 类 。AllElectronics 记录 每 位 顾客 购买 的 产品 。 作 为 客户 
关系 经 理 ， 你 想 根 据 顾 客 在 AllElectronics 购买 的 产品 把 他 们 聚 类 。 

顾客 购物 数据 的 维度 很 高 。AllElectronics 销售 数 万 种 产品 。 因 此 ， 顾 客 购物 简况 是 公司 
销售 的 产品 的 向 量 ， 上 其 有 数 万 维 。 

“传统 的 距离 度量 在 低 维 聚 类 分 析 中 频繁 使 用 ， 在 高 维 数 据 上 还 有 效 吗 ?” 考虑 表 11.4 
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中 所 示 的 顾客 ， 其 中 有 10 种 商品 P, ，…，Pi。， 用 于 解释 。 如 果 顾 客 购买 了 某 种 商品 ， 则 对 
应 的 位 被 设置 为 1， 否则 为 0。 让 我 们 计算 Ada, Bob 和 Cathy 之 间 的 欧 氏 距离 (2.16 式 ) 。 
容易 看 出 

dist(Ada,Bob) = dist( Bob,Cathy) = dist(Ada,Cathy) = /2 
根据 欧 氏 距离 ， 这 3 个 对 象 彼此 之 间 的 相似 性 (或 相 异 性 ) 完全 一 样 。 然 而 ， 进 一 步 观 察 
告诉 我 们 ，Ada 与 Cathy 应 该 比 与 Bob 更 相似 ， 因 为 Ada 和 Cathy 都 购买 了 商品 Pi。 E 


表 11.4 顾客 购物 数据 
顾客 P, P, P, P, Ps Pe P, Ps Ps Pr 








Cathy 1 0 0 0 1 0 0 0 0 1 





正如 例 11. 9 所 示 ， 在 高 维 空间 中 ， 传 统 的 距离 度量 可 能 没有 效果 。 这 种 距离 度量 可 能 
被 一 些 维 上 的 噪声 所 左右 。 因 此 ， 在 整个 高 维 空间 上 的 和 可 能 不 可 靠 ， 而 发 现 这 样 的 簇 可 能 
没有 意义 。 

“那么 ， 高 维 数据 上 什么 样 的 比 才 是 有 意义 的 ?” 对 于 高 维 数据 聚 类 分 析 来 说 ， 我 们 仍 
然 想 把 相似 的 对 象 聚 在 一 起 。 然 而 ， 数 据 空间 常常 太 大 、 太 混乱 。 另 一 个 挑战 是 ， 我 们 不 仅 
me AR, MABE MEME, RRR BER, MAS, BRS Re A 
ATES, MAR EFA ES TE AR, FER BR IE EHR 
分 组 〈 与 传统 的 聚 类 分 析 一 样 ) ; sb, MFR ME, 还 要 返回 刻画 该 徐 的 属性 集 。 例 如 ， 
在 表 11.4 中 ,为 了 刻画 Ada 和 Cathy 之 间 的 相似 性 ， 可 以 返回 P, 作为 属性 ， 因 为 Ada 和 
Cathy 都 购买 了 已 o 

聚 类 高 维 数据 是 搜索 簇 和 它们 存在 的 子 空 间 。 因 此 ， 存 在 两 类 主要 方法 。 

。 子 空 间 聚 类 方法 搜索 存在 于 给 定 高 维 数据 空间 的 子 空间 中 的 艇 ,其 中 子 空间 用 整个 

空间 中 的 属性 子 集 定义 。 子 空间 聚 类 方法 在 11. 2. 2 节 讨 论 。 

。 维 归 约 方法 试图 构造 更 低 维 的 空间 ， 并 在 这 种 空间 中 搜索 徐 。 通 常 ， 这 种 方法 可 能 

通过 组 合 原 数据 的 一 些 维 ， 构 造 新 的 维 。 维 归 约 方法 是 11. 2. 4 节 的 主题 。 

一 般 而 言 ， 除 了 传统 的 聚 类 面临 的 挑战 外 ， 聚 类 高 维 数据 还 面临 一 些 新 的 挑战 : 

© 一 个 主要 问题 是 如 何 为 高 维 数据 聚 类 创建 一 个 合适 的 模型 。 与 传统 的 低 维 空间 聚 类 

不 同 ， 隐 藏 在 高 维 空间 中 的 秘 通 常 非常 小 。 例 如 ， 在 素 类 顾客 购物 数据 时 ， 我 们 并 
不 期 望 许 多 顾客 都 具有 相似 的 购物 模式 。 搜 索 这 种 小 的 ， 但 有 意义 的 簇 如同 在 于 草 
堆 中 寻 针 。 如 上 所 示 ， 传 统 的 距离 度量 可 能 没什么 效果 。 我 们 常常 必须 考虑 各 种 更 
复杂 的 技术 ， 对 子 空间 中 对 象 的 相关 性 和 一 致 性 建 模 。 

。 通常 ， 有 指数 多 个 可 能 的 子 空间 或 维 归 约 选项 ， 因 此 最 优 解 的 计算 开销 高 得 令 人 不 

敢 问 津 。 例 如 ， 如 果 原 空间 有 1000 个 维 ， 并 且 我 们 想 发 现 维度 为 10 HORE, WEE 
Cio =2. 63 x 102 个 可 能 的 子 空 间 。 


11.2.2 子 空间 聚 类 方法 

“如 何 从 高 维 数据 中 发 现 子 空间 徐 ?” 已 经 提出 了 许多 方法 ， 它 们 大 致 可 以 划分 成 三 
主要 类 别 : 子 空 间 搜索 方法 、 基 于 相关 性 的 聚 类 方法 和 双 聚 类 方法 。 

1. 子 空间 搜索 方法 

子 空间 搜索 方法 为 豆 类 搜索 各 种 子 空 间 。 这 里 ， 艇 是 在 子 空间 中 彼此 相似 的 对 象 的 子 
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[510] 


[511] 


集 。 相 似 性 用 传统 的 方法 度量 ， 如 距离 或 密度 。 例 如 ，10. 5. 3 节 介绍 的 CLIQUE 算法 就 是 一 
种 子 空间 聚 类 方法 。 它 以 维度 递增 次 序 枚 举 子 空间 和 子 空间 中 的 秘 ， 并 利用 反 单 调 性 前 掉 不 


AY RE FF FERNS FI], 
子 空间 搜索 方法 面临 的 主要 挑战 是 如 何 有 成 效 和 有 效 地 搜索 一 系列 子 空间 。 一 般 地 ， 有 
两 种 策略 : 


© 自 底 向 上 方法 从 低 维 子 空间 开始 ， 并 且 仅 当 较 高 维 子 空间 可 能 存在 徐 时 ， 才 搜索 这 
些 较 高 维 子 空间 。 利 用 各 种 剪 枝 技 术 ， 以 降低 需要 搜索 的 较 高 维 子 空间 的 数量 。 
CLIQUE 是 自 底 向 上 方法 的 一 个 例子 。 

e 自 顶 向 下 方法 从 整个 空间 开始 ， 递 归 地 搜索 越 来 越 小 的 子 空间 。 仅 当局 部 性 假定 成 

立时 ， 自 顶 向 下 方法 才 有 效果 。 该 假定 限制 簇 的 子 空间 可 以 被 局 部 邻 域 确定 。 

例 11. 10 PROCLUS， 一 种 自 顶 向 下 的 子 空间 方法 。PROCLUS 是 一 种 类 似 于 大 - 中 心 
点 的 方法 。 它 首先 使 用 数据 集 的 一 个 样本 ， 为 高 维 数据 集 产生 上 个 潜在 的 艇 中心 。 然 后 ， 它 
迭代 地 对 子 空间 的 能 进行 求 精 。 在 每 次 迭代 ， 对 于 每 个 当前 中 心 点 ，PROCLUS 考虑 该 中 心 
点 在 整个 数据 集中 的 局 部 邻 域 ， 并 日 通 过 最 小 化 邻 域 中 的 点 到 每 个 维 上 的 中 心 点 的 距离 的 标 
准 差 ， 识 别 复 的 子 空间 。 一 旦 为 这 些 中 心 点 确定 了 所 有 的 子 空间 ， 数 据 集中 的 每 个 点 根据 对 
应 的 子 空间 被 指派 到 最 近 的 中 心 点 ， 识 别 簇 和 可 能 的 离 群 点 。 在 下 一 次 迭代 ， 如 果 能 够 提高 
聚 类 质量 ， 则 新 的 中 心 点 就 取代 已 有 的 中 心 点 。 = 

2. 基于 相关 性 的 聚 类 方法 

尽管 子 空 间 搜索 方法 使 用 传统 的 度量 (如 距离 和 密度 ) ERE, 但 是 基于 相关 性 的 方 
法 可 以 进一步 发 现 被 高 级 相关 性 模型 定义 的 簇 。 

例 11.11 一 种 使 用 PCA 的 基于 相关 性 的 方法 。 作 为 一 个 例子 ， 基 于 PCA 的 方法 使 用 
PCA ( 主 成 分 分 析 ， 见 第 3 章 ) 导出 新 的 、 不 相关 的 维 集合 ， 然 后 在 新 的 空间 或 它 的 子 空间 
aA ae. BRT PCA 之 外 ， 还 可 以 使 用 其 他 空间 变换 ， 如 Hough 变换 或 分 形 维 。 a 

关于 子 空 间 搜索 方法 和 基于 相关 性 的 聚 类 方法 的 进一步 细节 ， 请 参阅 文献 注释 
(11.7 4%). 

3. MRKAK 

在 某 些 应 用 中 ， 我 们 希望 同时 聚 类 对 象 和 属性 。 结 果 艇 是 所 谓 的 双 葵 (bicluster) ， 满 
足 如 下 要 求 : (1) 只 有 一 个 小 对 象 集 参与 一 个 和 能; (2) 一 个 簇 只 涉及 少数 属性 ，(3) 一 个 
对 象 可 以 参与 多 个 能 ， 或 完全 不 参与 任何 能 ; (4) 一 个 属性 可 以 被 多 个 簇 涉及 ,或 完全 不 
被 任何 得 涉及 。11. 2. 3 节 将 详细 讨论 双 聚 类 。 


11.2.3 NEŽ 


在 迄今 为 止 所 讨论 聚 类 分 析 中 ， 我 们 根据 对 象 的 属性 值 对 它们 聚 类 。 对 象 和 属性 以 不 同 
的 方式 处 理 。 然 而 ， 在 某 些 应 用 中 ， 对 象 和 属性 以 对 称 的 方式 定义 ， 其 中 数据 分 析 涉 及 搜索 
乍 阵 ， 寻 找 作 为 篮 的 唯一 模式 的 子 和 矩阵 。 这 类 聚 类 技术 属于 双 聚 类 〈biclustering) 。 

本 节 ， 我 们 首先 介绍 两 个 双 聚 类 应 用 的 例子 一 一 基因 表达 和 推荐 系统 。 然 后 ， 我 们 将 学 
JRA MRA, Ba, BADR, 

1. 应 用 实例 

双 聚 类 技术 最 早 是 为 了 满足 分 析 基因 表达 数据 的 需要 而 提出 的 。 基 因 是 从 一 个 生命 有 机 
体 向 其 后 代 传 递 特征 的 单元 。 典 型 地 ， 基 因 驻 留 在 一 个 DNA 段 中 。 对 于 所 有 生物 ， 基 因 都 
是 至 关 重 要 的 ， 因 为 它们 确定 所 有 的 蛋白 质 和 功能 RNA 链 。 它 们 持 有 用 来 构建 和 维持 生命 
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有 机 体 细胞 和 传递 遗传 特征 到 后 代 的 信息 。 功 能 基因 的 合成 产生 RNA 或 者 蛋白 质 ， 依 赖 于 
基因 表达 过 程 。 基 因 型 (genotype) 是 细胞 、 有 机 体 或 个 体 的 基因 组 成 。 显 型 (phenotype) 
是 有 机 体 的 可 观测 的 特征 。 基 因 表 达 在 遗传 学 的 最 基本 层面 ， 因 为 基因 型 导致 显 型 。 
使 用 DNA 图 谱 (XEK DNA 微 阵 列 ) 和 其 他 生物 工 样本 /条 件 
程 技术 ， 我 们 可 以 在 大 量 不 同 的 实验 条 件 下 ， 测 量 一 个 有 
机 体 的 大 量 (可 能 是 所 有 的 ) 基因 的 表达 水 平 。 这 些 条 
件 可 能 对 应 于 实验 中 的 不 同时 间 点 或 取 自 不 同 器 官 的 样 
本 。 粗 略 地 说 ， 基 因 表 达 数 据 或 DNA 微 阵列 数据 概念 上 
是 一 个 基因 - 样本 /条 件 和 矩阵， 其 中 每 行 对 应 于 一 个 基因 ， 
每 列 对 应 于 一 个 样本 或 条 件 。 和 矩阵 的 每 个 元 素 都 是 实数 ， 
记录 一 个 基因 在 特定 条 件 下 的 表达 水 平 。 图 11.3 给 出 了 
一 个 图 示 。 
从 聚 类 的 角度 来 看 ， 基 因 表 达 数 据 和 矩阵 可 以 在 两 个 维 
上 分 析 一 一 基因 维和 样本 /条 件 维 。 
。 在 基因 维 上 分 析 时 ， 我 们 把 每 个 基因 看 做 一 个 对 
象 ， 而 把 样本 /条 件 看 做 属性 。 在 基因 维 上 挖掘 ， 
我 们 可 以 发 现 多 个 基因 的 共有 模式 ,或 把 基因 聚 类 成 组 。 例 如 ,我 们 可 能 发 现 表 明 
它们 自身 相似 性 的 基因 组 ， 在 生物 信息 学 (如 发 现 途径 ) 中 ， 这 是 被 高 度 关注 的 。 
。 在 分 析 样 本 /条 件 维 时 ， 我 们 把 样本 /条 件 看 做 对 象 ， 而 把 基因 看 做 属性 。 这 样 ， 我 
们 可 以 发 现 样本 /条 件 的 模式 ， 或 把 样本 /条 件 聚 类 成 组 。 例 如 ， 我 们 可 以 通过 比较 
瘤 样本 和 非 瘤 样 本 组 ， 发 现 基 因 表 达 的 差异 。 
例 11. 12 ”基因 表达 。 在 生物 信息 学 的 研究 与 开发 中 ， 基 因 表 达 矩 阵 很 流行 。 例 如 ， 一 
项 重要 的 任务 是 使 用 新 基因 和 已 知 类 的 其 他 基因 的 表达 数据 对 新 的 基因 分 类 。 对 称 地 ， 我 们 
也 可 以 使 用 新 样本 〈 例 如 ， 新 患者 ) 和 已 知 类 的 其 他 样本 (例如 ， 瘤 和 非 瘤 ) 对 新 样本 分 
类 。 对 于 理解 疾病 机 理 和 医疗 处 置 ， 这 种 任务 的 价值 无 法 估量 。 a 
正如 我 们 所 看 到 的 ， 许 多 基因 表达 数据 挖 据 问 题 都 与 聚 类 分 析 高 度 相 关 。 然 而 ， 这 面临 
的 挑战 是 ， 在 许多 情况 下 ， 我 们 需要 同时 在 两 个 维 上 聚 类 (例如 ， 基 因 和 样本 /条 件 ) ， 而 
不 是 在 一 个 维 上 聚 类 〈 例 如 ， 基 因 或 样本 /条 件 ) 。 此 外 ， 与 我 们 迄今 为 止 讨论 的 聚 类 模型 
不 同 ， 在 基因 表达 数据 矩阵 上 的 焦 是 一 个 子 矩 阵 ， 并 且 通 常 具有 如 下 特点 
。 只 有 少量 基因 参与 该 艇 。 
© 该 徐 只 涉及 少量 样本 /条 件 。 
。 一 个 基因 可 能 参与 多 个 簇 ， 也 可 能 完全 不 参与 任何 艇 。 
。 样本 /条 件 可 能 被 多 个 簇 所 涉及 ， 也 可 能 完全 不 被 任何 徐 所 涉及 。 
为 了 发 现 基因 - 样本 /条 件 矩 阵 中 的 簇 ， 对 于 双 聚 类 ， 我 们 需要 满足 如 下 要 求 的 聚 类 
技术 : 
。 一 个 基因 簇 只 使 用 样本 /条 件 的 一 个 子 集 定义 。 
© 一 个 样本 /条 件 秘 只 使 用 基因 的 一 个 子 集 定义 。 
簇 既 不 是 互 斥 的 〈 例 如 ， 一 个 基因 可 能 参与 多 个 簇 ) ， 也 不 是 穷 举 的 〈 例 如 ， 一 个 
基因 可 能 不 参与 任何 能) 。 
双 聚 类 不 仅 在 生物 信息 学 中 有 用 ， 而 且 在 其 他 一 些 应 用 中 也 有 用 ,例如 推荐 系统 。 
例 11. 13 ”对 推荐 系统 使 用 双 聚 类 。AllElectronics 收集 了 顾客 对 产品 的 评价 数据 ， 并 使 





图 11.3 微 阵列 数据 矩阵 
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用 这 些 数据 向 顾客 推荐 产品 。 该 数据 可 以 用 顾客 - 产品 矩阵 建 模 ， 其 中 每 行 代表 一 位 顾客 ， 
每 列 代 表 一 种 产品 。 和 矩阵 的 每 个 元 素 代 表 一 位 顾客 对 一 种 产品 的 评价 ， 它 可 能 是 评分 ( 例 


如 ,喜欢 、 有 点 喜欢 、 不 喜欢 ) 或 购买 态度 〈 例 如 ， 买 或 不 产品 
买 ) 。 图 11.4 解释 了 这 一 结构 。 wio WM 
顾客 -产品 矩阵 可 以 在 两 个 维 上 分 析 : 顾客 维和 产品 维 。 把 ME wo ww … 区 
每 位 顾客 看 做 一 个 对 象 ， 每 种 产品 看 做 一 个 属性 ，AllElectronics sm 
可 以 发 现 具 有 类 似 爱好 和 购买 模式 的 顾客 组 。 使 用 产品 为 对 象 ， Y Ya oo We 
顾客 为 属性 ，AllElectronics 可 以 挖掘 顾客 兴趣 类 似 的 产品 组 。 图 11.4 eae — AAEE 


此 外 ，AllElectronics 还 可 以 同时 在 顾客 和 产品 上 控 据 聚 类 。 这 样 的 能 包含 顾客 的 一 个 子 
集 ， 并 且 涉 及 产品 的 一 个 子 集 。 例 如 ，AllElectronics 对 发 现 都 喜欢 同一 组 产品 的 顾客 群 特别 
BNE., KREMA - 产品 矩阵 的 一 个 子 矩 阵 ， 其 中 所 有 的 元 素 都 具有 较 高 的 值 。 使 用 这 
AHR, AllElectronics 可 以 按 两 个 方向 做 出 推荐 。 首 先 ， 公 司 可 以 向 与 该 簇 中 的 顾客 相似 的 新 
顾客 推荐 产品 。 其 次 ， 公 司 可 以 向 顾客 推荐 与 该 篮 涉及 的 产品 相似 的 新 产品 。 m 

与 基因 表达 数据 矩阵 一 样 ， 顾 客 ~ 产品 和 矩阵 中 的 双 簇 通常 具有 如 下 特点 : 

。 只 有 少量 顾客 参与 一 个 簇 。 

© 一 个 艇 只 涉及 少量 产品 。 

。 一 位 顾客 可 能 参与 多 个 秘 ， 也 可 能 完全 不 参与 任何 簇 。 

。 一 种 产品 可 能 被 多 个 能 所 涉及 ， 也 可 能 完全 不 被 任何 能 所 涉及 。 

可 以 把 双 聚 类 用 于 顾客 -产品 矩阵 ， 挖 扎 满 足以 上 要 求 的 艇 。 

2. MRNA 

“Set RRR HE ENT” TERT MER SI. AML, Moh, 我 
们 将 使 用 “基因 ”和 “条 件 ” 指 代 这 两 个 维 。 我 们 的 讨论 容易 扩展 到 其 他 应 用 。 例 如 ， 我 
们 可 以 简单 地 用 “顾客 ”和 “产品 ”分 别 替换 “基因 ”和 “条 件 ” 来 处 理 顾客 - 产品 双 聚 
类 问题 。 

设 4= {a,,，…，a,| 为 基因 的 集合 ，B = 1b, --, bn) 为 条 件 的 集合 。 设 巨 =[e] 为 
基因 表达 数据 矩阵 ， 即 基因 -条 件 矩 阵 ， 其 中 1 <i<n, l<j<m, FER Ix] 由 基因 的 子 
RICA 和 条 件 的 子 集 JCB 定义 。 例 如 ， 在 图 11.5 所 示 的 矩阵 中 ， Ja, ay, ag} x ibe 
bi, bss, bo | 是 一 个 子 和 矩阵。 

双 艇 是 一 个 子 矩 阵 ， 其 中 基因 和 条 件 都 遵循 一 致 的 模式 。 我 们 可 以 基于 这 种 模式 定义 不 
同 双 簇 的 类 型 : 

。 作为 最 简单 的 情况 ， 子 矩阵 Tx JCA, JCB) 是 一 个 具有 常数 值 的 双 散 ， 如 果 对 

于 任意 iel7 和 jeJ， gic, Hc 是 常数 。 例 如 ， 图 11.5 中 的 子 矩 阵 ja, ay, 
Age) x [be, biz, bu, bo) 就 是 一 个 具有 常数 值 的 双 簇 。 








bs re by bye s.. bos 
60 one 60 ses 60 eee 60 
ay ao 60 ons 60 as 60 aoe 60 
Age a 60 wes 60 on 60 oon 60 


图 11.5 ÆR -RER ERE. — OE 
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。 一 个 双 秘 是 有 趣 的 ， 如 果 每 行 都 有 一 个 常数 值 ， 尽 管 不 同行 可 能 有 不 同 的 值 。 一 个 
TLAA RENMEI x], HEMT ieIMjel, Fe,=ct+a,, Ha, 
是 行 i 的 调节 量 。 例 如 ， 图 11.6 BRT LAA RRO, 
对 称 地 ， 一 个 列 上 具有 常数 值 的 双 往 是 子 和 矩阵 了 x J， 使 得 对 于 ie7 和 JeJ， 有 ey = 
c+, FB 是 列 j 的 调节 量 。 
。 如 果 行 以 与 列 同步 的 方式 改变 ， 并 且 反 之 亦 然 。 更 精确 地 说 ， 一 个 具有 相 于 (co- 
herent) 和 值 的 双 徐 (又 称 基于 模式 的 徐 ) 是 一 个 子 和 矩阵 1x J]， 使 得 对 于 iel 和 je J， 
有 ej=c+a;+B;,， 其 中 a AB 分 别 是 行 i 和 列 j 的 调节 量 。 例 如 ， 图 11.7 显示 了 一 
个 具有 相干 值 的 双 簇 。 
可 以 证 明 , 1xJ 是 一 个 具有 相干 值 的 双 秘 ， 当 且 仅 当 对 于 任意 ,i eI A, heJ, 
有 iy, Ey =n -ewp。 此 外 ， 我 们 可 以 不 用 加 法 ， 而 是 用 乘法 定义 具有 相干 值 的 双 簇 ， 即 
ey =c… (ap)。 显 然 ， 在 行 或 列 上 具有 常数 值 的 双 艇 是 具有 相干 值 的 双 复 的 特例 。 
。 在 某 些 应 用 中 ， 我 们 可 能 只 对 基因 或 条 件 向 上 或 向 下 调整 改变 感 兴趣 ， 而 不 关心 准 
确 的 值 。 一 个 行 上 具有 相干 演变 的 双 簇 是 一 个 子 矩 阵 TxJ， 使 得 对 于 与 ， 志 ET 和 六 ， 
hed, 有 (en en) (Cien) 20. AM, A1l.8 显示 了 一 个 行 上 具有 相干 演 
变 的 双 簇 。 对 称 地 ， 我 们 可 以 定义 列 上 具有 相干 演变 的 双 簇 。 


10 10 10 10 10 10 50 30 70 20 10 50 30 70 20 
20 20 20 20 20 20 60 40 80 30 20 100 50 1000 36 
50 50 50 50 50 50 90 70 110 60 50 100 90 120 80 
0 0 0 0 0 0 40 20 60 10 0 80 20 100 10 


图 11.6 FTEAA RRM Æ1.7 RA 68 行 上 具有 相干 演变 的 双 簇 


接 下 来 ， 我们 研究 如 何 挖 扬 双 簇 。 

3. MRARAK 

ETH URAL MABE T BAB TAOL. EKRAR P, EERDERE. M 
它们 确实 存在 时 ， 它 们 通常 很 小 。 随 机 噪声 可 能 影响 6; 的 读数 ， 因 而 阻止 了 双 簇 以 完美 形状 
出 现 。 

在 含 噪声 的 数据 中 发 现 双 簇 的 方法 主要 有 两 类 。 基 于 最 优化 的 方法 执行 迭代 搜索 。 在 每 
个 迁 代 中 ， 具 有 最 高 显著 人 性 得 分 的 子 和 矩阵 被 识别 为 双 能 。 这 一 过 程 在 用 户 指定 的 条 件 满足 时 
终止 。 考 虑 到 计算 开销 ， 通 常 使 用 贪心 搜索 ， 找 到 局 部 最 优 的 双 簇 。 枚 举 方法 使 用 一 个 容忍 
国 值 指定 被 挖掘 的 双 篮 对 噪声 的 容忍 度 ， 并 试图 枚 举 所 有 满足 要 求 的 双 和 能 的 子 和 矩阵 。 我 们 以 
5 -IRIN MaPle 算法 为 例 解释 这 些 思想 。 

4. 使 用 5 - 匀 算 法 最 优化 

对 于 一 个 子 撼 阵 7xJ， 第 ; 行 的 均值 是 


1 
ey = TTA ey (11. 16) 
对 称 地 ， 第 7 列 的 均值 是 
er =r he (11.17) 


子 和 矩阵 所 有 元 素 的 均值 是 
1 1 1 
ey = Trial, » ej = Tr ye = TI” (11. 18) 


eljeJs te 
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作为 双 簇 的 子 矩 阵 的 质量 可 以 用 均 方 残 差 来 度量 
HO xJ) = TFT S (e; -ey -ej + ey)? (11. 19) 


ieljej 


WR H(I xJ) <6, METER Ix] B-TE6-MR, HH 5>0 EAN 8 =0 时， 

Ix Je — RAHTARIN. WARES >00, AMATAR ERTEN, Bho 
素 的 平均 噪声 容忍 度 ， 因 为 在 (11.19) 式 中 ， 每 个 元 素 上 的 剩余 是 

residue(e,) = ey — ey — ey + ey (11. 20) 

极 大 68- 双 答 是 一 个 65- MHI x I, BREE A—F 6 - WRI xI, ICI, ICT’, 

并 且 至 少 有 一 个 真 包含 成 立 。 找 出 最 大 的 极 大 双 复 是 计算 量 巨大 的 。 因 此 ， 我 们 使 用 启发 式 





贪心 搜索 方法 来 得 到 局 部 最 优 的 秘 。 算 法 的 运行 分 两 阶段 。 
。 在 删除 阶段 ,我们 从 整个 矩阵 开始 。 当 和 矩阵 的 均值 二 次 剩余 超过 6 时 ， 我 们 迭代 地 
删除 行 和 列 。 在 每 次 选 代 中 ， 对 于 每 一 行 夺 我们 计算 均值 二 次 剩余 


d(i) = TITY (e -eu ~ ey + en)? (11.21) 
此 外 ， 对 于 每 一 列 j/， 我 们 计算 均值 二 次 剩余 
d(j) = FIT È Ce- eu = ey + ey)” (11.22) 


我 们 删除 具有 最 大 均值 二 次 剩余 的 行 或 列 。 这 一 阶段 结束 时 ， 我 们 得 到 一 个 子 矩阵 
7xJ， 它 是 一 个 5 - 双人 能 。 然 而 ， 该 子 矩 阵 可 能 不 是 极 大 的 。 

。 在 增加 阶段 ， 只 要 保持 满足 5 - 双人 能 的 要 求 ， 我 们 就 欠 代 地 扩展 删除 阶段 得 到 的 5 - 
BE x J。 在 每 次 迄 代 中 ， 我 们 考虑 不 在 当前 5 - I xj 中 的 所 有 行 和 所 有 列 ， 
计算 它们 的 均值 二 次 剩余 。 均 值 二 次 剩余 最 小 的 行 或 列 被 添加 到 当前 5 - BUH 

这 个 贪心 算法 只 能 发 现 一 个 5 - 双 簇 。 为 了 找到 多 个 不 严重 重 到 的 8 - M, REITA 

运行 该 算法 多 次 。 每 次 运行 输出 一 个 5 - 双 簇 后 ， 我 们 可 以 用 随机 数 蔡 换 输出 5 - 双 簇 中 的 
元 素 。 尽 管 该 贪心 算法 也 许 既 不 能 找到 最 优 的 8 - 双 伐 ， 也 不 能 找 出 所 有 的 8 - DUBE, (ELE 
即便 在 大 矩阵 上 它 也 很 快 。 

5. 使 用 MaPle KERANI 

MERR, -ATER I xJ BAA, SAUTER, bel A, 

hel, B ey, -ew =en- eo 对 于 任意 2 x2 的 子 矩阵 7xJ， 我 们 可 以 定义 P-score 为 


en, Cin 
p-score( e ) = | (ei ~ e) — (ei = ez) | (11.23) 
Th FRG I xJ 是 一 个 5-p ik (对 于 基于 模式 的 簇 )， 如 果 1xJ 的 每 个 2 x2 FEER 
P-score 都 最 多 为 6， 其 中 6 是 一 个 国 值 ， 说 明 以 完美 双 簇 为 标准 ， 用 户 对 噪声 的 容忍 度 。 这 
E, p-score 控制 双 簇 中 每 个 元 素 上 的 噪声 ， 而 均值 二 次 剩余 捕获 了 平均 噪声 。 
6-p 复 的 一 个 有 趣 性 质 : 如 果 /xJ 是 一 个 6-p HE, WI x IMA xy(2, y>2) FE 
阵 也 都 是 6-p 簇 。 这 种 单调 性 使 得 我 们 可 以 得 到 非 元 余 5-p 复 的 简洁 表示 。 一 个 5-p 簇 是 极 大 
的 ， 如 果 不 能 把 更 多 的 行 或 列 添加 到 该 秘 ， 而 仍然 保持 5-p 簇 性 质 。 为 了 避免 宛 余 ， 我 们 只 
需要 计算 所 有 的 极 大 5-p 艇 ,而 不 是 所 有 的 5-p $. 
MaPle 是 一 种 枚 举 所 有 极 大 6-p 簇 的 算法 。 它 采用 集合 枚 举 树 和 深度 优先 策略 ， 系 统 地 
枚 举 条 件 的 每 种 组 合 。 枚 举 的 框架 与 频繁 模式 挖掘 的 模式 增长 方法 (第 6 章 ) 相同 。 考 虑 
基因 表达 数据 。 对 于 每 个 条 件 组 合 J，MaPle 找 出 基因 的 最 大 子 集 /， 使 得 [xjJ 是 5-p $E. w 


第 11 章 高 级 聚 类 分 析 - 337 


Ix J 不 是 其 他 6-p ERTER, xJ 是 一 个 极 大 6-p KR. 

可 能 存在 大 量 的 条 件 组 合 。MaPle 使 用 5-p 秘 的 单调 性 剪 去 许多 无 效果 的 组 合 。 对 于 一 
NAA J, WREATH, HB Ix I 是 一 个 6-p 簇 ， 则 不 必 再 考虑 j 的 任何 超 
Æ. edb, MSIE CLI) -1) -FÆJ', Tx 了 ' 都 是 6-p RM, RNAS RHE x JE 
为 5-p 秘 的 候选 。MaPle 还 利用 一 些 前 枝 策略 来 加 快 搜索 ， 并 保持 返回 所 有 极 大 5-p RASC 
全 性 。 例 如 ， 当 考察 当前 的 5-p HEIx J 时 ，MaPle 收集 所 有 可 能 添加 以 扩展 该 篮 的 基因 和 条 
件 。 如 果 这 些 候选 基因 和 条 件 与 1 和 J 一 起 形成 了 一 个 已 经 找到 的 6-p ROTHER, WI x J 
和 J 的 任何 超 集 的 搜索 都 可 以 被 前 枝 。 关 于 MaPle 算法 的 更 多 信息 ， 有 兴趣 的 读者 可 以 参阅 
文献 注释 (11.7 节 )。 

这 里 ， 一 个 有 趣 的 观察 是 ，MaPle 中 极 大 6-p 簇 搜 索 有 点 类 似 于 挖掘 频繁 闭 模 式 。 因 此 ， 
MaPle 借用 了 深度 优先 框架 和 频繁 模式 挖掘 的 模式 增长 方法 的 剪 枝 技术 的 思想 。 这 是 频繁 模 
式 挖掘 和 聚 类 分 析 可 以 共享 类 似 的 技术 和 思想 的 一 个 范例 。 

MaPle 和 其 他 枚 举 所 有 双 簇 的 算法 的 一 个 优点 是 ， 它 们 保证 结果 的 完全 性 ， 并 且 不 丢失 
任何 重 释 的 双 徐 。 然 而 ， 这 种 枚 举 算法 的 一 个 难题 是 ， 如 果 和 矩阵 变 得 非常 大 ， 如 包含 数 十 万 
顾客 和 数 百 万 种 产品 的 顾客 - 产品 和 矩阵 ， 则 这 些 算法 可 能 非常 耗 时 。 


11.2.4 维 归 约 方法 和 谱 聚 类 
子 空 间 聚 类 方法 试图 在 原 数据 空间 的 子 空间 中 发 现 焦 。 在 某 些 情况 下 ， 构 造 一 个 新 的 空 
间 ， 而 不 是 使 用 原 数据 空间 的 子 空间 效果 更 好 。 这 就 是 聚 类 高 维 数据 的 维 归 约 方法 的 动机 。 
例 11. 14 在 导出 的 空间 中 富 类 。 考 虑 图 11.9 中 的 3 个 点 簇 。 不 可 能 在 原 空间 和 x 了 的 
任何 子 空 间 对 这 些 点 聚 类 ， 因 为 这 3 MERA REY X AY HBB RM. MRR 


造 一 个 新 的 维 - 将。 Py (图 中 虚线 显 


W), BARE? 把 这 些 点 投影 到 新 的 维 
上 ， 这 3 TRAE HAT AT JLo 0.707x+0.707y 
尽管 例 11. 14 只 涉及 两 个 维 , 但 是 Y 
构造 新 空间 (使 得 隐藏 在 数据 中 的 聚 类 
结构 变 得 明显 ) 可 以 扩展 到 高 维 数 据 。 
更 理想 的 情况 是 ， 新 构造 的 空间 应 该 具 
有 和 较 低 的 维度 。 
有 许多 维 归 约 方法 。 最 直截了当 的 图 11.9 在 导出 的 空间 中 聚 类 可 能 效果 更 好 
方法 是 对 数据 集 使 用 特征 选择 和 提取 方法 ， 如 第 3 章 讨 论 的 那些 方法 。 然 而 ， 这 些 方法 可 能 
也 不 能 检测 出 聚 类 结构 。 因 此 ， 结 合 特征 提取 和 聚 类 的 方法 更 可 取 。 本 节 ， 我 们 研究 谱 聚 
类 ， 一 组 在 高 维 数据 应 用 中 有 效 的 方法 。 
图 11. 10 给 出 了 谱 聚 类 方法 的 一 般 框架 。Ng-Jordan-Weiss 算法 是 一 种 谱 聚 类 方法 。 让 我 
们 考察 该 框架 的 每 一 步 。 考 察 时 ， 作 为 例子 ， 我 们 还 注意 用 于 Ng-Jordan- Weiss 算法 的 特殊 
条 件 。 
给 定数 据 对 象 o, ，…，o。 的 集合 ， 每 两 个 对 象 之 间 的 距离 dist(o;, 0,)(1<i, j<n) 和 
期 望 的 能 数 5， 谱 涌 类 方法 步骤 如 下 ; 
(1) 使 用 距离 度量 计算 相似 纸 阵 (affinity matrix) W, (£78 
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dist(a;,0,) 


ies id Bat EA 
— 2 
W; =e o 


其 中 ，o 是 缩放 参数 ， 控 制 相似 性 WRG dist(o,, o) 增加 而 降低 的 速度 。 在 Ng-Jordan-Weiss 
算法 中 ，W; 被 设置 为 0。 


数据 相似 矩阵 pei 在 新 空间 聚 类 投影 问 原 数据 


nh oes 


图 11.10 HRA AWE, WH http://videolectures. net/ micued08_azran_mcl/ 上 的 幻灯 片 8 


(2) 使 用 相似 矩阵 办 ， 导 出 矩阵 4 =f( 下) 。 导 出 的 方法 可 能 不 同 。Ng- Jordan- Weiss 算 
法 定义 一 个 对 角 和 矩阵 D， 其 中 De WR TA, BY 


D: = TW, (11.24) 


然后 ， 设 置 4 为 
A = DYWDY (11. 25) 

(3) 找 出 4 的 前 个 特征 向 量 。 一 个 方 阵 的 特征 向 量 是 非 零 向 量 ， SRA, 
它 仍 然 与 原 向 量 成 比例 。 严 格 地 说 ， 向 量 v 是 矩阵 4 的 特征 向 量 ， 如 果 4v =Ay， 其 中 入 称 
做 对 应 的 特征 值 。 这 一 步 基 于 相似 和 矩阵 多， 从 4 导出 天 个 新 的 维 。 通 常 , 大 应 该 比 原 数据 空 
间 的 维度 小 得 多 。 

Ng- Jordan- Weiss 算法 计算 4 的 具有 最 大 特征 值 的 k 个 特征 向 量 x ，…，xi。 

(4) 使 用 前 £ 个 特征 向 量 ， 把 原 数 据 投影 到 由 前 个 特征 向 量 定义 的 新 空间 ， 并 运行 诸 
如 -均值 这 样 的 聚 类 算法 找 出 上 个 簇 。 

Ng- Jordan- Weiss 算法 把 个 最 大 的 特征 向 量 按 列 堆积 在 一 起 形成 一 个 矩阵 半 =[ xx,… 
x] e R"”**。 通 过 规范 化 了 使 得 其 每 行 都 具有 单位 长 度 ， 形 成 矩阵 了 ， 即 


X, 
Y, = 一 将- 一 (11.26) 


Tix 


然后 ， 把 了 的 每 一 行 看 做 在 维 空间 R 中 的 一 个 点 ， 并 运行 -均值 (或 其 他 用 于 划分 的 算 
法 )， 把 这 些 点 聚 类 成 个 簇 。 

(5) 根据 变换 后 的 点 被 分 配 到 第 4 步 得 到 的 艇 ,把 原 数据 点 分 配 到 这 些 簇 。 

在 Ng-Jordan-Weiss 算法 中 ， 原 对 象 o; 被 分 配 到 第 7 个 秘 ， 当 且 仅 当 和 矩阵 了 的 第 i 行 被 分 
配 到 第 4 步 结 果 的 第 /个 复 。 

在 谱 案 类 方法 中 ， 新 空间 的 维度 被 设置 为 驴 的 个 数 。 该 设置 期 望 每 个 新 的 维 都 能 够 显露 

—/ME 

$111.15 Ng-Jordan-Weiss 算法 。 考 虑 图 11. 11 中 的 点 集合 。 图 11. 11 中 显示 了 数据 
集 、 相 似 矩 阵 、3 个 最 大 的 特征 向 量 和 规范 化 后 的 向 量 。 注 意 ， 使 用 3 个 新 的 维 (由 3 个 最 
大 的 特征 向 量 形成 ) ， 簇 容易 被 检测 到 。 a 

谱 聚 类 在 诸如 图 像 处 理 这 样 的 高 维 应 用 中 是 有 效 的 。 理 论 上 讲 ， 当 满足 一 定 条 件 时 ， 它 
的 效果 良好 。 然 而 ， 可 伸缩 性 是 一 个 挑战 。 在 大 矩阵 上 计算 特征 向 量 开销 很 大 。 谱 聚 类 可 以 
与 其 他 聚 类 方法 结合 ， 如 与 双 聚 类 结合 。 关 于 维 归 约 聚 类 方法 ， 如 核 PCA 的 更 多 信息 ， 可 
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以 参阅 文献 注释 中 (11.7 节 )。 


b=[v, v2, 03] U=[u, i, ts] 
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图 11.11 新 的 维和 Ng-Jordan- Weiss 算法 的 聚 类 结果 。 取 自 http:/videolectures. net/ micued08_azran_mcl/ 
上 的 幻灯 片 9 














11.3 聚 类 图 和 网 络 数据 

在 图 和 网 络 数据 上 的 聚 类 分 析 提取 有 价值 的 知识 和 信息 。 这 种 数据 在 许多 应 用 中 日 益 普 
遍 。 我 们 在 11.3.1 节 讨 论 聚 类 图 和 网 络 数据 的 应 用 与 挑战。 这 种 聚 类 的 相似 性 度量 在 
11.3.2 节 给 出 。 在 11. 3.3 节 ， 我 们 将 学 习 关于 图 聚 类 的 方法 。 


一 般 而 言 ， 术 语 “图 ”和 “网 络 ”可 以 互 换 地 使 用 。 在 本 节 的 其 余部 分 ， 我 们 主要 使 《”[522 


用 术语 “图 ”。 
11. 3.1 应 用 与 挑战 

作为 AllElectronics 的 客户 关系 经 理 ， 你 注意 到 大 量 与 顾客 及 其 购买 行为 有 关 的 数据 可 以 
利用 图 更 好 地 建 模 。 

例 11.16 偶 图 。AllElectronics 的 顾客 购买 行为 可 以 用 一 个 偶 图 表示 。 在 偶 图 中 ， 顶 点 
可 以 划分 成 两 个 不 相交 的 集合 ， 使 得 每 条 边 都 连接 一 个 集合 中 的 一 个 顶点 和 另 一 个 集合 中 的 
一 个 顶点 。 对 于 AllElectronics 的 顾客 购买 数据 ， 一 个 顶点 集 wx 产品 
代表 顾客 ， 每 个 顶点 一 位 顾客 。 另 一 个 顶点 集 代表 产品 ， 每 
个 顶点 一 种 产品 。 边 连接 起 顾客 和 产品 ， 表 示 顾 客 对 产品 的 
购买 。 图 11. 12 给 出 了 一 个 图 示 。 

“我 们 通过 顾客 -~ 产品 偶 图 上 的 聚 类 分 析 能 够 得 到 什么 类 
型 的 知识 ?” 通 过 对 顾客 聚 类 ， 把 购买 类 似 产 品 集 的 顾客 放 人 
一 组 ， 客 户 关系 经 理 可 以 进行 产品 推荐 。 例 如 ， 假 设 Ada 属 
于 一 个 顾客 艇 ， 其 中 大 部 分 顾客 在 过 去 12 个 月 内 都 购买 了 数 
码 相 机 ， 但 是 Ada 还 没有 买 。 作 为 经 理 ， 你 决定 向 她 推荐 数 图 11.12 代表 顾客 -购买 数据 
码 相 机 。 的 偶 图 

作为 选择 ， 我 们 可 以 对 产品 聚 类 ， 使 得 被 类 似 的 顾客 集 购 买 的 产品 聚 在 一 起 。 这 种 聚 类 
信息 也 能 用 于 产品 推荐 。 例 如 ， 如 果 数 码 相机 和 高 速 办 存 卡 属于 相同 的 产品 笠 ， 则 当 一 位 顾 
客 购买 数码 相机 时 ， 我 们 可 以 推荐 高 速 闪 存 卡 。 

偶 图 广泛 用 于 许多 应 用 。 考 虑 下 面 的 例子 。 

例 11. 17 Web 搜索 引擎 。 在 Web 搜索 引擎 中 存储 了 搜索 日 志 ， 记 录 了 用 户 的 查询 和 
单 击 链接 信息 。( 单 击 链接 信息 告诉 我 们 作为 搜索 的 结果 ， 用 户 单 击 了 哪些 页 面 。) 查询 和 
单 击 链接 信息 可 以 用 一 个 偶 图 表示 ， 其 中 两 类 顶点 集 分 别 对 应 于 查询 和 网 页 。 一 条 边 链接 一 
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个 查询 和 一 个 网 页 ， 如 果 用 户 在 该 查询 中 单 击 了 该 网 页 。 通 过 查询 - 网 页 偶 图 上 的 聚 类 分 析 
可 以 得 到 有 价值 的 信息 。 便 如， 如 果 每 个 查询 的 单 击 链接 信息 都 相似 ， 则 我 们 可 以 识别 用 不 ， 
同 语言 提出 但 意 指 相 同事 物 的 查询 。 

另 一 个 例子 ， 网 络 上 的 所 有 网 页 形成 一 个 有 向 图 又 称 Web 图 ， 其 中 每 个 网 页 是 一 个 顶 
点 ， 每 个 从 源 网 页 指向 目标 网 页 的 超 链接 是 一 条 边 。 在 Web 图 上 的 聚 类 分 析 可 以 揭示 社区 、 
发 现 中 心 和 权威 网 页 ， 并 且 检 测 垃圾 网 页 。 E 

除 偶 图 外 ， 聚 类 分 析 也 可 以 用 于 其 他 类 型 的 图 ， 如 下 面 的 例子 所 示 。 

例 11. 18 社会 网 络 。 社 会 网 络 是 一 个 社会 结构 。 它 可 以 用 一 个 图 表示 ， 其 中 顶点 是 个 
人 或 组 织 ， 边 是 顶点 之 间 的 相互 依赖 ， 表 示 朋 友 关 系 、 共 同 兴 趣 或 合作 活动 。AlIElectronics 
的 顾客 形成 一 个 社会 网 络 ， 其 中 每 位 顾客 是 一 个 顶点 ， 而 一 条 边 连 接 两 位 顾客 ， 如 果 他 们 相 
互 认 识 。 

作为 客户 关系 经 理 ， 你 对 通过 聚 类 分 析 ， 从 AllElectronics 的 顾客 网 络 发 现 的 有 用 信息 感 
兴趣 。 你 从 该 网 络 发 现 徐 ， 其 中 一 个 艇 中 的 顾客 相互 认识 或 具有 共同 的 朋友 。 同 一 个 簇 的 顾 
客 可 能 在 购物 决策 方面 相互 影响 。 此 外 ， 可 以 设计 沟通 媒 道 来 通知 秘 的 “ 头 ”( 即 簇 中 连接 
“最 好 ”的 人 ) ， 使 得 促销 信息 可 以 快速 传播 。 这 样 ， 你 可 以 使 用 这 种 顾客 聚 类 来 提升 AL 
]Electronics 的 销售 。 

娘 一 个 例子 是 科学 出 版 物 的 作者 形成 一 个 社会 网 络 ， 其 中 作者 是 项 点， 而 两 位 作者 被 一 
条 边 连接 ， 如 果 他 们 合作 发 表 了 一 个 出 版 物 。 一 般 而 言 ， 该 网 络 是 一 个 加 权 图 ， 因 为 两 位 作 
者 之 间 的 边 可 以 携带 权重 ,代表 合作 强度 ， 如 两 位 作者 (两 端的 顶点 ) 合作 发 表 了 多 少 出 
版 物 。 聚 类 合 著 者 网 络 提 供 了 关于 作者 社区 与 合作 模式 的 洞察 。 m 

“对 于 图 和 网 络 数据 上 的 聚 类 分 析 ， 有 什么 特殊 的 困难 吗 ?” 在 迄今 为 止 讨论 的 大 部 分 
聚 类 算法 中 ， 对 象 都 用 一 组 属性 表示 。 图 和 网 络 数据 的 独 有 特征 只 是 给 出 了 对 象 〈 顶 点 ) 
和 它们 之 间 的 联系 〈 边 ) 。 没 有 明确 定义 维 或 属性 。 为 了 在 图 和 网 络 数据 上 进行 聚 类 分 析 ， 
主要 存在 两 个 新 挑战 。 

e “如 何 度量 图 中 的 两 个 对 象 之 间 的 相似 性 ?” 我 们 不 可 能 使 用 诸如 欧 氏 距离 这 样 的 传 

统 的 距离 度量 ， 而 是 需要 开发 新 的 测度 来 量化 相似 性 。 这 种 测度 通常 不 是 度量 ， 因 
而 对 于 有 效 的 聚 类 方法 的 开发 就 提出 了 新 的 挑战 。 图 的 相似 性 度量 在 11.3. 2 节 
讨论 。 

© “如 何 设计 在 图 和 网 络 数 据 上 有 效 的 聚 类 模型 和 方法 ?” 图 和 网 络 数据 通常 是 复杂 

的 ， 携 带 了 比 传统 聚 类 分 析 应 用 更 复杂 的 拓扑 结构 。 许 多 图 数据 集 都 很 大 ， 如 Web 
图 至 少 包含 数 十 亿 网 页 。 图 还 可 能 是 稀疏 的 ， 在 平均 情况 下 ， 一 个 顶点 只 连接 到 图 
中 少量 其 他 顶点 。 为 了 发 现 深 埋 在 数据 中 的 准确 、 有 用 的 知识 ， 需 要 一 个 好 的 聚 类 
方法 来 适应 这 些 因素 。 图 和 网 络 数 据 的 聚 类 方法 在 11. 3. 3 节 讨 论 。 


11.3.2 相似 性 度量 


“如 何 度量 图 中 两 个 项 点 之 间 的 相似 性 或 距离 ?” 在 我 们 的 讨论 中 ， 我 们 考虑 两 种 度量 ， 
测 地 距 和 基于 随机 游 走 的 距离 。 

1. Wd Ba 

图 中 两 个 顶点 之 间距 离 的 一 种 简单 度量 是 两 个 顶点 之 间 的 最 短路 径 。 两 个 顶点 之 间 的 测 
HEBE (geodesic distance) 是 两 个 顶点 之 间 最 短路 径 的 边 数 。 对 于 图 中 两 个 非 连通 的 顶点 ， 测 
地 距 被 定义 为 无 穷 大 。 
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使 用 测 地 距 ， 我 们 可 以 定义 图 分 析 和 聚 类 的 一 些 其 他 有 用 的 度量 。 给 定 图 C= (7 了 7， 巨 ) ， 
其 中 了 是 顶点 集 ， 而 五 是 边 集 ， 我 们 有 如 下 和 定义: 

© 对 于 顶点 ve V, v 的 离心 率 (eccentricity) 记 作 eccen(v), 是 wv 与 其 他 顶点 weV- 
fo} 之 间 的 最 大 测 地 距 。w 的 离心 率 捕获 了 2 与 图 中 最 远 的 顶点 的 远近 程度 。 

。 图 6G 的 半径 是 图 的 所 有 顶点 的 最 小 离心 率 。 即 

r= mineccen(v) (11.27) 

半径 捕获 了 图 中 “最 靠近 中 心 的 点 ”与 “最 远 边界 ”之 间 的 距离。 

。 图 C 的 直径 是 图 的 所 有 顶点 的 最 大 离心 率 。 即 


d = maxeccen(v) (11.28) 
直径 代表 了 图 中 所 有 顶点 对 之 间 的 最 大 距离 。 b 


。 外 围 顶点 是 处 于 直径 上 的 顶点 。 
例 11.19 基于 测 地 距 的 度量 。 考 虑 图 11. 13 中 的 图 G, a 
离心 率 是 2， 即 eccen(a) =2, HF eccen(b) =2， 并 且 eccen(c) = 


eccen(d) =eccen(e) =3, ALG 的 半径 为 2， 直 径 为 3。 注 意 , 不 d 
必 有 d=2 xr。 顶点 c，d 和 e 都 是 外 围 顶点 。 M1113 图 6， 其 中 顶点 
2. SimRank: 基于 随机 游 走 和 结构 情境 的 相似 性 a Gat Bae 

MES 


Rp FRE i FL, A e E E E PTS Td A DE BY RER 
合适 。 这 里 我 们 引入 SimRank ， 一 种 基于 随机 游 走 和 图 结构 情境 下 的 相似 性 度量 。 在 数学 
中 ， 随 机 游 走 是 一 个 轨迹 ， 由 相继 的 随机 步 组 成 。 

例 11. 20 社会 网 络 中 人 的 相似 性 。 让 我 们 考虑 度量 例 11. 18 的 AllElectronics 顾客 社会 
网 络 中 两 个 顶点 之 间 的 相似 性 。 这 里 ， 相 似 性 可 以 解释 为 两 个 网 络 参与 者 之 间 的 亲密 程度 ， 
即 就 该 网 络 表现 的 联系 而 言 两 个 人 的 亲密 程度 。 

“用 测 地 距 度量 这 种 网 络 中 的 相似 性 和 亲密 程度 的 效果 如 何 ?” 假 设 Ada 和 Bob 是 该 网 
络 中 的 两 位 顾客 ， 并 且 网 络 是 无 向 的 。 测 地 距 距 离 ( 即 Ada 于 Bob 之 间 的 最 短路 径 长 度 ) 
是 消息 可 以 从 Ada 传递 到 Bob (或 相反 ) 的 最 短路 径 。 然 而 ， 这 种 信息 对 AllElectronics 的 客 
户 关系 管理 没有 用 ， 因 为 公司 一 般 不 想 从 一 位 顾客 向 另 一 位 发 送 特定 的 消息 。 因 此 ， 测 地 滤 
不 适合 这 种 应 用 。 

“社会 网 络 中 的 相似 性 意味 什么 ?” 我 们 考虑 两 种 定义 相似 性 的 方法 。 

。 两 位 顾客 是 相似 的 ， 如 果 他 们 在 社会 网 络 中 有 相似 的 近邻 。 这 种 直观 推断 是 因为 ， 
实践 中 ， 两 个 从 许多 共同 朋友 那里 接受 推荐 的 人 常常 做 出 相似 的 决策 。 这 种 相似 性 
基于 顶点 的 局 部 结构 RR), 因而 称 做 基于 结构 情境 的 〈structural context- 
based) 相似 性 。 

。 假设 AllElectronics 把 促销 信息 发 给 社会 网 络 中 的 Ada 和 Bob, Ada 和 Bob 可 能 随机 
地 把 这 种 信息 传 给 网 络 中 他 们 的 朋友 (或 近邻 ) Ada 和 Bob 之 间 的 亲密 性 可 以 用 
其 他 顾客 同时 收 到 源 于 发 给 Ada 和 Bob 的 促销 消息 的 似 然 来 度量 。 这 种 相似 性 基于 
网 络 随机 游 走 可 达 性 ， 因 而 称 做 基于 随机 游 走 的 相似 性 (similarity based on random 
walk ) 。 E 

让 我 们 更 仔细 地 考察 基于 结构 背景 的 相似 性 和 基于 随机 游 走 的 相似 性 所 表示 的 意义 。 

基于 结构 情境 的 相似 性 的 直观 意义 是 ， 图 中 两 个 顶点 是 相似 的 ， 如 果 它 们 与 相似 的 顶点 
相 链接 。 为 了 度量 这 种 相似 性 ， 我 们 需要 定义 个 体 的 邻 域 的 概念 。 在 有 向 图 C = (V, E) 
中 ， 其 中 V 是 顶点 的 集合 ， 而 CV xV 是 边 的 集合 ， 对 于 顶点 ve V,，o 的 个 体 入 邻 域 (indi- 
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vidual in-neighborhood) 定义 为 


I(v) = {u| (u,v) e E} (11.29) 
类 似 地 ， 我 们 可 以 把 "的 个 体 出 邻 域 (individual out-neighborhood) 定义 为 
O(v) = {w|(v,w) e E} (11.30) 


按照 例 11. 20 的 直观 解释 ， 对 于 任意 一 对 顶点 ， 我 们 定义 一 种 基于 结构 情境 的 相似 度 
SimRank ， 其 值 在 0 和 1 之 间 。 对 于 任意 顶点 ve V， 该 顶点 与 自身 的 相似 度 为 s(v, vo) =1, 
因为 邻 域 是 相同 的 。 对 于 顶点 w，v e V， 使 得 wz， 我 们 定义 


s(u,v) (11.31) 


C 
= Thu) Toy Todt ey” 
其 中 C 是 0 和 1 之 间 的 常数 。 一 个 大 点 可 能 没有 人 人 近邻。 因此 ， 当 (4) RIO) 为 几时 ， 
我 们 定义 (11.31) 式 为 0。 参 数 C 指定 相似 性 沿 着 边 传播 时 的 衰减 率 。 
“如 何 计算 SimRank?” 一 种 直截了当 的 方法 是 迄 代 地 计算 (11.31) 式 ， 吉 到 到 大 不 动 
点 。 设 ss(w, v) 为 第 i 轮 计算 的 SimRank。 开 始 ， 我 们 令 


Solu, v) = 0 wRu Av 11.32 
(usr) = Whee, (11. 32) 
我 们 使 用 (11.31) xt, H s; 计算 sai 
-~ C __ sla 
Su (u,v) 一 | Iu) | I(v) [人 入 i( yx) (11. 33) 


可 以 证 明 ，limsi(z，?) =s(u, v) 。 近 似 计 算 SimRank 的 其 他 方法 在 文献 注释 中 给 出 (11.7 
节 )。 

现在 ， 让 我 们 考虑 基于 随机 游 走 的 相似 性 。 一 个 有 向 图 是 强 连通 的 ， 如 果 对 于 任意 两 个 
顶点 w 和 v， 都 存在 一 条 从 wu 到 v 和 另 一 条 从 4。 到 4 的 路 径 。 在 一 个 强 连通 的 图 G = (V, E) 
中 ,对 于 任意 两 个 顶点 w， ve V， 我 们 可 以 定义 从 4 到 "的 期 望 距离 为 

d(u,v) 》 Plet]i[e] (11.34) 

FOR, uv 是 一 条 从 w 开 始 到 + 结束 的 路 径 ， 可 能 包含 环 ， 但 是 直到 结束 才 到 达 v。 对 于 一 
ARB UE i = ww, >, 其 长 度 为 l(t) =k -1。 该 漫游 的 概率 定义 为 


P(t] = (i ToT WRI) >0 (11.35) 
0 yoR l(t) =0 
为 了 度量 顶点 ”同时 收 到 源 于 zx Alo 的 消息 的 概率 ， PRATER sy RE am 
% (expected meeting distance), ， 即 
m(u,v) > Piel] (11. 36) 


tr (uo) ~ (rx) 


HP, (u, o)l, x) 是 一 对 长 度 相等 的 漫游 4~…x Filo mx, 使 用 0 和 1 之 间 的 常数 C， 
我 们 定义 期 望 相遇 概率 为 
Plu) = ¥ Pleo (11.37) 


t: (u,v) (x, 


它 是 基于 随机 游 走 的 相似 性 度量 。 这 里 ， 参数 C 指定 在 轨迹 的 每 一 步 继续 游 走 的 概率 。 
已 经 证 明 ， 对 于 任意 两 个 顶点 w Al, s(u, v) =p(u, v), Bl SimRank 是 基于 结构 背景 
和 随机 游 走 的 。 
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11.3.3 图 聚 类 方法 

让 我 们 考虑 如 何在 图 上 进行 聚 类 。 我 们 先 介绍 图 聚 类 的 直观 思想 ， 然 后 讨论 图 聚 类 的 两 
种 一 般 方法 。 

为 了 发 现 图 中 的 艇 ， 想象 把 图 切割 成 若干 片 ， 每 片 是 一 个 徐 ， 使 得 徐 内 的 顶点 很 好 地 互 连 ， 
而 不 同 秘 的 顶点 以 很 弱 的 方式 连接 。 对 于 图 C=(Y, E), Bi (cut) C=(S, T) 是 图 6 的 顶点 了 
的 一 个 划分 ， 使 得 Y=SU7 并 且 Sn7y = 名。 荐 的 割 集 是 边 的 集合 Iu, v) cE lueS, veT}. 
割 的 大 小 是 割 集 的 边 数 。 对 于 加 权 图 ， 割 的 大 小 是 割 集 的 边 的 加 权 和 。 

“对 于 导出 图 中 的 稚 ， 什 么 样 的 割 最 好 ?” 在 图 论 和 一 些 网 络 应 用 中 ， 最 小 割 十 分 重要 。 
一 个 市 是 最 小 的 ， 如 果 它 的 大 小 不 大 于 任何 其 他 割 。 存 在 计算 图 的 最 小 割 的 多 项 式 算法 ， 我 
们 可 以 在 图 聚 类 中 使 用 这 些 算 法 吗 ? 

$11.21 HR. SA 1.14 中 的 图 C。 该 图 有 两 个 能 la, b, c, d, e, fl, tg, 
h, i, j, k} 和 一 个 离 群 点 1。 





图 11.14 图 6G 和 它 的 两 个 割 


考虑 割 C = (1a, b, c, d, e, f, g, h, i, j,k，1li)。 只 有 一 条 边 (e,!) 跨越 被 
C 创建 的 两 个 分 制 。 因 此 ，Ci WIRE 1 (e, D}, RADA, GER: 连通 图 的 任何 割 
的 大 小 都 不 可 能 小 于 1。) 作为 最 小 割 ，C, 并 不 导致 好 的 聚 类 ， 因 为 它 只 把 离 群 点 /与 图 中 
其 他 点 分 开 。 

3C =(la, b, c, d, e, f, Ul, lg, h, i, j, kl) 导致 比 C 好 得 多 的 聚 类 。C: HH 
集中 的 边 是 连接 图 中 两 个 “自然 徐 ” 的 边 。 具 体 地 说 ， 由 于 边 (d, h) 和 (e, k) EHR 
中 ， 大 部 分 连接 4，h，e 和 上 的 边 都 在 一 个 艇 中 。 E 

例 11. 21 表明 ， 使 用 最 小 割 未 必 导 致 好 的 聚 类 。 我 们 最 好 选择 这 样 的 割 ， 对 于 涉及 割 集 
中 一 条 边 的 每 个 顶点 上 ， 大 部 分 与 志 相 连接 的 边 都 属于 一 个 簇 。 令 deg (u) 为 的 度数 ， 即 
HERS u 的 边 数 。 割 C = (3S，7) MHRA LA 


-ANKA 
= mint 1S], 1771 (11. 38) 
DS CCM Sa CR Sen a Lt Meee re 


的 割 。 

在 例 11.21 和 图 11. 14 中 ，C: 是 最 稀 琉 的 制 。 使 用 稀疏 性 作为 客观 函数 ， 最 稀 朴 的 割 
试图 最 小 化 跨越 划分 的 边 数 ， 并 且 平 衡 划分 的 大 小 。 

考虑 图 G =(V，E) HRX, CHARA kM. FIRE (modularity) P 
HRA, EMH 
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k L d, y? 
Q = > (TET- (ET ) (11.39) 
其 中 ,i 是 第 i 个 簇 的 顶点 之 间 的 边 数 ，d; ER i MEN RHE, ARR 
是 落 入 个 体 簇 中 的 所 有 边 所 占 的 比例 与 如 果 图 的 顶点 随机 连接 则 落 入 个 体 簇 的 所 有 边 所 占 比 
例 之 差 。 图 的 最 佳 聚 类 可 以 最 大 化 模块 性 。 

从 理论 上 讲 ， 许 多 图 聚 类 问题 都 可 以 看 做 在 图 中 找 最 好 的 割 ， 如 最 稀疏 的 割 。 然 而 ， 实 
践 中 ， 一 些 挑战 依然 存在 。 
。 高 计算 开销 : 许多 图 割 问题 都 是 计算 开销 很 大 的 。 例 如 ， 最 稀疏 的 割 问题 是 NP - A 
难 的 。 因 此 ， 在 大 图 上 找 出 最 优 解 是 不 现实 的 。 必 须 在 有 效 性 /可 伸缩 性 与 质量 之 间 
寻求 好 的 折 中 。 
。 复杂 的 图 : 图 可 能 比 这 里 介绍 的 更 为 复杂 ， 涉 及 权重 和 /或 环 。 
。 高 维 性 : 图 可 能 有 许多 顶点 。 在 相似 度 矩 阵 中 ， 顶 点 用 向 量 表示 (矩阵 的 一 行 )， 
其 维度 是 图 中 的 顶点 数 。 因 此 ， 图 聚 类 方法 必须 处 理 高 维 性 。 
。 MRE: 大 图 通常 是 稀 朴 的 ， 意 指 在 平均 情况 下 ， 每 个 顶点 只 与 少量 其 他 顶点 相连 
接 。 由 大 的 稀 琉 图 得 到 的 矩阵 可 能 也 是 稀 玻 的 。 
有 两 类 图 数据 聚 类 方法 ， 可 以 处 理 以 上 难题 。 一 类 使 用 聚 类 高 维 数据 的 方法 ， 而 另 一 类 
是 专门 为 图 聚 类 设计 的 。 

第 一 组 方法 基于 一 般 的 高 维 数据 聚 类 方法 。 它 们 使 用 如 11. 3. 2 节 讨 论 的 那些 相似 性 度 
量 ， 从 图 中 提取 相似 度 和 矩阵。 然后 ， 在 相似 度 和 矩阵 上 使 用 一 般 的 聚 类 方法 发 现 秘 。 通 常 ， 使 
用 高 维 数据 的 聚 类 方法 。 例 如 ， 在 许多 情况 下 ， 一 旦 得 到 相似 度 和 矩阵 ， 就 可 以 使 用 谱 聚 类 方 
法 〈11.2.4 节 )。 谱 聚 类 可 以 逼近 最 优 图 割 解 。 更 多 的 信息 ， 请 参阅 文献 注释 (11.7 节 ) 。 

第 二 组 方法 是 专门 用 于 图 的 方法 。 它 们 搜索 图 ， 找 出 良 连通 的 成 分 作为 和 能。 作为 例子 ， 
让 我 们 考察 一 种 称 做 SCAN (Structural Clustering Algorithm for Networks， 网 络 的 结构 聚 类 算 
法 ) 的 方法 。 

给 定 无 向 图 G=(V，E)， 对 于 顶点 weV, u HWRE Tu) ={v|(u, v) cE} Ulul. 
使 用 结构 情境 相似 性 的 思想 ，SCAN 用 规范 化 的 公共 邻 域 大 小 来 度量 两 个 顶点 4， vz eV 之 间 
的 相似 性 ， 即 





|ru) N T) | (11.40) 
v |T (u) || r) 
该 计算 值 越 大 ， 两 个 项 点 越 相 似 。SCAN AAU BA s ERR BSA, WER ue 
V, u ġe -BREH N, (u) = [ve (u) lo(u, v) 宇 se] 。w H e -RREA u 的 所 有 近邻 ， 
它们 与 u 的 结构 情境 相似 性 至 少 为 eo 

在 SCAN 中 ， 核 心 顶 点 是 艇 内 的 顶点 ， 即 weV 是 核心 顶点 ， 如 果 |N,(u) leu, KPa 
FEB. SCAN 由 核心 顶点 产生 (grow) $2, MR DUR » 在 核心 顶点 4 的 8 - 邻 域内 ， 
则 "被 指派 到 与 相同 的 簇 中 。 簇 增长 的 过 程 继 续 ， 直 到 所 有 的 簇 都 不 能 进一步 增长 。 这 一 
过 程 类 似 于 基于 密度 的 聚 类 方法 DBSCAN (第 10 章 ) 。 

顶点 v 可 以 从 核心 点 uw 直接 到 达 ， 如 果 veN,(u)。 从 传递 角度 来 说 ， 顶 点 ov 可 以 从 核心 
点 到达， 如 果 存 在 顶点 序列 w, ，…，w,， 使 得 wi 可 以 从 u 直接 到 达 ， 对 于 1 <i<n, w; 
可 以 从 w;_, 直 接 到 达 ， 并 且 v 可 以 从 w 直接 到 达 。 此 外 ， 两 个 顶点 ,veV (它们 可 能 是 也 
可 能 不 是 核心 点 ) 是 相连 的 ， 如 果 存 在 一 个 核心 点 w 使 得 w 和 wv 都 是 从 w GA, SEY 
所 有 顶点 都 是 相连 的 。 一 个 簇 是 最 大 的 顶点 集 ， 使 得 该 集合 中 的 每 对 顶点 都 是 相连 的 。 


o(u,v) = 
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有 些 顶 点 可 能 不 属于 任何 簇 。 这 种 顶点 u RAPS Chub), WR u HRR U) 包含 
来 自 多 个 能 的 顶点 。 如 果 一 个 顶点 不 属于 任何 簇 ， 也 不 是 中 心 ， 则 它 是 离 群 点 。 

图 11. 15 展示 了 SCAN 算法 。 搜 索 框 架 与 DBSCAN 的 艇 发 现 过 程 类 似 。SCAN 发 现 图 的 
一 个 割 ， 其 中 每 个 簇 都 是 一 个 顶点 集 ， 它 们 基于 结构 情境 的 传递 相似 性 是 连通 的 。 


Sik: 图 数据 聚 类 的 SCAN。 
MA: 图 G= (VY，E) ， 相 似 度 冰 值 s， 点 数 阀 值 4。 
输出 : HARA. 
方法 : 设置 /中 所 有 的 顶点 为 未 标记 的 。 
for all 未 标记 的 顶点 u do 
这 w 是 核心 顶点 then 
产生 一 个 新 的 镶 标 识 c 
把 所 有 vEN, (Cu) 插入 队列 QO 
while 042 do 
we 台中 的 第 一 个 顶点 
RR 可 以 直接 从 w 到 达 的 顶点 集 
for all sE R do 
if s 不 是 未 标记 的 或 被 标记 为 nonmember then 
把 当前 的 铸 标 识 c 赋 予 s 
endif 
这 s 是 未 标记 的 then 
把 s 插 入 队列 O 
endif 
endfor 
MOE Hw 
end while 
else 
把 u 标 记 为 nonmember 
endif 
endfor 
for all 标 记 为 nonmember 的 顶 点 wu do 
ifix, yET (u): x 和 y 具 有 不 同 的 镶 标 识 then 
标记 4 为 hub 
else 
标记 z 为 离 群 点 
endif 











endfor 





图 11.15 图 数据 上 夷 类 分 析 的 SCAN 算法 
SCAN 的 一 个 优点 是 ， 其 时 间 复 杂 性 关于 边 数 是 线性 的 。 在 大 的 稀疏 图 上 ， 边 数 与 顶点 


数 在 同一 数量 级 。 因 此 ， 在 大 型 图 上 ，SCAN 可 望 具有 好 的 可 伸缩 性 。 531 
11.4 具有 约束 的 聚 类 

通常 ， 用 户 具 有 背景 知识 ， 希 望 把 它们 集成 到 聚 类 分 析 中 ， 可 能 还 会 有 一 些 特定 应 用 的 
要 求 。 这 些 信 息 可 以 作为 聚 类 约束 来 建 模 。 我 们 用 两 步 来 处 理 具 有 约束 的 聚 类 这 一 主题 。 
11.4.1 节 对 聚 类 图 数据 的 约束 类 型 进行 归 类 。 具 有 约束 的 聚 类 方法 在 11. 4. 2 节 介 绍 。 
11.4.1 约束 的 分 类 i 

本 节 研 究 如 何 对 聚 类 分 析 所 用 的 约束 进行 分 类 。 特 殊 地 ， 我 们 可 以 根据 约束 的 主观 人性， 


346 ' 第 {1 章 BARKI 





533 


或 根据 约束 的 强制 程度 对 它们 加 以 分 类 。 

正如 第 10 章 中 所 讨论 的 ， 聚 类 分 析 涉 及 三 个 基本 方面 : 作为 徐 实 例 的 对 象 、 作 为 对 象 
群 的 艇 和 对 象 之 间 的 相似 性 。 因 此 ， 我 们 讨论 的 第 一 种 方法 是 根据 约束 作用 于 何 处 对 约束 分 
类 。 这 样 ， 我 们 有 三 种 类 型 : 实 角 上 的 约束 、 答 上 的 约束 和 相似 性 度量 上 的 约束 。 

实例 上 的 约束 : 实例 上 的 约束 说 明 一 对 或 一 组 实例 如 何在 聚 类 分 析 中 被 分 组 。 这 类 约束 
的 两 种 常见 类 型 包括: 

。 必须 联系 约束 (must-link constraint) 。 如 果 在 两 个 对 象 x 和 y 上 指定 了 必须 联系 约 
R, Ws My 应 该 分 组 到 聚 类 分 析 输 出 的 一 个 艇 中 。 必 须 联系 约束 是 传递 的 ， 即 如 
R must-link(x, y) 并 且 must-link(y, z), W] must-link(x，z)。 
不 能 联系 约束 (cannot-link constraint ) 。 不 能 联系 约束 与 必须 联系 约束 相反 。 如 果 在 
两 个 对 象 * 和 y 上 指定 了 不 能 联系 约束 ， 则 在 聚 类 分 析 的 输出 中 ，x M y 应 该 属于 不 
同 的 徐 。 不 能 联系 约束 可 能 是 承袭 的 ， 即 如 果 有 cannot- link (x，y) ，must- link (x, 
x’) H must-link(y, y’), ， 则 cannot-link(x’, y’)。 

实例 上 的 约束 可 以 使 用 具体 的 实例 定义 。 另 外 ， 它 也 可 以 通过 实例 变量 或 实例 的 属性 来 
EX. Hin, R 

Constraint(x,y) :must-link (x,y) 如 果 dist(x,y) S € 

使 用 对 象 之 间 的 距离 指定 了 一 个 必须 联系 的 约束 。 

REMAR: 禾 上 的 约束 可 能 使 用 簇 的 属性 ， 说 明 对 簇 的 要 求 。 例 如 ， 约 束 可 能 指定 一 
个 能 中 对 象 的 最 小 个 数 、 复 的 最 大 直径 或 复 的 形状 〈 例 如 ， 凸 形 ) 。 为 划分 方法 指定 的 复数 
可 以 看 做 灸 上 的 约束 。 

相似 性 度量 上 的 约束 : 通常 ， 在 聚 类 分 析 中 ， 诸 如 欧 氏 距离 这 样 的 相似 性 度量 用 来 度量 
对 象 之 间 的 相似 性 。 在 某 些 应 用 中 也 有 例外 。 相 似 性 度量 上 的 约束 说 明 相似 性 计算 必须 遵守 
的 要 求 。 例 如 ， 为 了 把 集 市 上 的 人 作为 移动 对 象 聚 类 ， 当 欧 氏 距离 用 来 给 出 两 点 之 间 的 步行 
距离 时 ， 相 似 性 度量 上 的 约束 是 : 实现 最 短 距 离 的 轨迹 不 能 穿越 墙 。 

可 能 存在 多 种 方法 表示 一 种 约束 ， 这 依赖 于 约束 的 类 别 。 例 如 ， 我 们 可 以 说 明 一 个 艇 上 
的 约束 


Constraint, : WH HEA RRA F d 
这 一 约束 也 可 以 使 用 实例 上 的 约束 表示 为 
Constraint’, :cannot-link(x,y) 如 果 dist(x,y) > d (11.41) 
例 11.22 ”实例 、 徐 和 相似 性 度量 上 的 约束 。AllElectronics 把 它 的 顾客 聚 类 ， 以 便 可 以 
为 每 组 顾客 指定 一 位 客户 关系 经 理 。 假 设 我 们 想 说 明 ， 地 址 相同 的 所 有 顾客 都 应 该 放 在 同一 
组 ， 这 将 为 家 庭 提供 更 综合 性 的 服务 。 这 可 以 用 实例 上 的 必须 联系 约束 表达 : 
Constraint ani (x,y) :must-link(x,y) 如 果 x. address = y. address 
AllElectronics 有 8 {i PRR, ONT RARE A AA Re a, RIEL 
施 以 约束 ， 例 如 ， 应 该 有 8 ME, FAA MERIDA 10% 的 顾客 ， 最 多 有 15% 的 顾客 。 我 
们 可 以 使 用 驾驶 距离 来 计算 两 位 顾客 之 间 的 空间 距离 。 然 而 ， 如 果 两 位 顾客 居住 在 不 同 的 国 
家 ， 则 我 们 必须 使 用 飞行 距离 。 这 是 一 个 相似 性 度量 上 的 约束 。 m 
为 一 种 对 聚 类 约束 分 类 的 方法 是 考虑 约束 必须 遵守 的 程度 。 一 个 约束 是 硬性 的 ， 如 果 违 
反 该 约束 的 聚 类 是 不 可 接受 的 。 一 个 约束 是 软 性 的 ， 如 果 违 反 该 约束 的 聚 类 是 不 可 取 的 ， 但 
是 在 找 不 到 更 好 的 解 时 还 可 以 接受 。 软 性 约束 又 称 可 取 性 。 
例 11. 23 硬性 和 软 性 约束 。 对 于 AllElectronics, ， 例 11. 22 的 Constraintnmiw 是 硬性 约束 ， 
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因为 把 一 个 家 庭 划分 到 不 同 的 艇 可 能 影响 公司 为 该 家 庭 提 供 综 合 服 务 ， 导 致 很 差 的 顾客 满意 
度 。 徐 数 上 的 约束 (对 应 于 公司 的 客户 关系 经 理 数 ) 也 是 硬性 的 。 例 11. 22 还 有 一 个 平衡 
簇 大 小 的 约束 。 尽 管 满足 该 约束 是 非常 可 取 的 ,但 是 公司 还 可 以 变通 ， 因 为 它 乐 意 指 派 一 位 
资深 和 更 有 能 力 的 客户 关系 经 理 来 管理 一 个 大 徐 。 因 此 ， 该 约束 是 软 性 的 。 a 
理想 情况 下 ， 对 于 特定 的 数据 集 和 约束 集 ， 所 有 的 聚 类 都 满足 这 些 约束 。 然 而 ， 有 可 能 
不 存在 满足 所 有 约束 的 数据 集 上 的 聚 类 。 例 如 ， 如 果 约 束 集中 的 两 个 约束 冲突 ， 则 没有 聚 类 
能 够 同时 满足 它们 。 
例 11.24 冲突 的 约束 。 考 虑 约束 : 
must-link(x,y) 如 果 disi(x,y) <5 
cannot-link(x,y) 如 果 disi(x,y) >3 
如 采 数 据 集中 有 两 个 对 象 x，y 使 得 dist(x, y) =4， 则 没有 聚 类 能 够 同时 满足 这 两 个 约束 。 
考虑 如 下 两 个 约束 
must-link(x,y) 如 果 disi(x,y) <5 
must-link (x,y) 如 果 disi(x,y) <3 
给 定 第 一 个 约束 ， 则 第 二 个 约束 是 元 余 的 。 此 外 ， 对 于 一 个 数据 集 ， 其 中 任意 两 个 对 象 之 间 
的 距离 至 少 为 5， 则 这 些 对 象 的 每 个 可 能 的 聚 类 都 满足 这 些 约束 。 | 
“如 何 评估 约束 集 的 质量 和 有 用 性 ?” 一 般 而 言 ， 我 们 考虑 它们 的 提供 信息 性 和 一 致 性 。 
信息 性 是 指 约 束 携带 的 超越 聚 类 模型 的 信息 量 。 给 定 一 个 数据 集 D、 一 个 聚 类 模型 4 和 一 个 
约束 集 C ,C 关 于 D 上 的 4 的 提供 信息 性 可 以 用 A 在 D 上 的 聚 类 不 满足 C 的 约束 所 占 的 比例 度 
量 。 提 供 信息 性 越 高 ， 约 束 携带 的 要 求 和 背景 知识 越 具 体 。 约 束 集 的 一 致 性 是 约束 本 身 之 间 
的 一 致 程度 ， 可 以 用 约束 之 间 的 元 余 性 度量 。 


11.4.2 具有 约束 的 聚 类 方法 


尽管 我 们 可 以 把 聚 类 约束 分 类 ， 但 是 应 用 可 能 具有 很 不 相同 的 具体 约束 形式 。 因 此 需要 
各 种 各 样 的 技术 来 处 理 具体 的 约束 。 本 节 ， 我 们 讨论 处 理 硬性 约束 和 软 性 约束 的 一 般 原 理 。 

1. 处 理 硬 性 约束 

处 理 硬性 约束 的 一 般 策略 是 ， 在 聚 类 的 指派 过 程 中 ， 严 格 遵守 约束 。 为 了 解释 这 一 思 
想 ， 我 们 以 划分 聚 类 为 例 。 

给 定数 据 集 和 实例 上 约束 集 ( 即 必须 联系 或 不 能 联系 约束 )， 我 们 如 何 扩充 -均值 方 
法 ， 满 足 这 些 约束 ? COP-k -均值 算法 按 以 下 方法 处 理 : 

(1) 对 必须 联系 约束 产生 超 实 例 。 计 算 必 须 联 系 约束 的 传递 闭 包 。 这 里 ， 所 有 的 必须 
联系 约束 看 做 一 个 等 价 关系 。 该 闭 包 给 出 一 个 或 多 个 对 象 子 集 ， 其 中 一 -个子 集中 的 所 有 对 象 
必须 分 配 到 一 个 簇 中 。 为 了 表示 这 种 子 集 ， 我 们 把 该 子 集 的 所 有 对 象 用 均值 取代 。 超 实例 还 
携带 权重 ， 它 是 超 实例 代表 的 对 象 数 。 

这 一 步 之 后 ， 必 须 联 系 约束 已 经 满足 。 

(2) 进行 修改 后 的 下 -均值 聚 类 。 回 忆 一 下 ， 在 站- 均值 聚 类 中 ， 对 象 被 指派 到 最 近 的 
中 心 。 如 果 最 近 中 心 指派 违反 不 能 联系 约束 ， 怎 么 办 ? 为 了 遵守 不 能 联系 约束 ， 我 们 把 大 - 
均值 的 中 心 指派 过 程 修改 为 最 近 的 可 行 中 心 指派 。 也 就 是 说 ， 当 对 象 依次 指派 到 中 心 时 ， 在 
每 一 步 ， 我 们 要 确保 所 做 的 指派 都 不 违反 不 能 联系 约束 。 对 象 被 指派 到 最 近 的 中 心 ， 使 得 该 
指派 遵守 所 有 的 不 能 联系 约束 。 

因为 COP- -均值 确保 每 步 都 不 违反 任何 约束 ， 因 此 它 不 需要 回 滴 。 它 是 一 种 贪心 算 
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法 ， 只 要 约束 之 间 不 存在 冲突 ， 它 将 产生 满足 所 有 约束 的 聚 类 。 
2. 处 理 软 性 约束 l 
RARHEARMRRE—MiMEE. KRAER, ERA LEMA 
因此 ， 聚 类 的 最 优化 目标 包含 两 部 分 : 优化 聚 类 质量 和 最 小 化 违反 约束 的 罚 。 总 体 目标 函数 
是 聚 类 质量 得 分 和 罚 得 分 的 组 合 。 
为 了 解释 这 一 点 ,我 们 再 次 以 划分 聚 类 为 例 。 给 定 一 个 数据 集 和 实例 上 的 软 性 约束 的 集 
合 ，CVQE (Constrained Vector Quantization Error) 算法 进行 上 -均值 聚 类 ， 而 施加 违反 约束 
罚 。CVQE 使 用 的 目标 函数 是 -均值 中 所 用 距离 和 ， 用 违反 约束 罚 加 以 调整 ， 按 如 下 方法 
计算 : 
。 违反 必须 联系 的 罚 。 如 果 对 象 x 和 yy 上 存在 必须 联系 约束 ,但 是 它们 被 分 别 指派 到 
AB c, 和 c ， 则 该 约束 被 违反 。 作 为 结果 ，c: 和 c 之 间 的 距离 dist(c, ，c ) TF 
为 罚 而 被 加 到 目标 函数 中 。 
。 违反 不 能 联系 的 罚 。 如 果 对 象 * My 上 存在 不 能 联系 约束 ， 但 是 它们 被 指派 到 共同 
的 中 心 c<， 则 该 约束 被 违反 。c 和 c' 之 间 的 距离 dist(c, c) 作为 罚 而 被 加 到 目标 函 
[536] 数 中 。 
3. 加 快 约束 聚 类 的 速度 
约束 ， 如 相似 性 度量 上 的 约束 ， 可 能 导致 聚 类 的 开销 很 大 。 考 虑 如 下 含有 障碍 物 的 聚 类 
问题 : 为 了 聚 类 和 集 市 中 作为 移动 对 象 的 人 ， 欧 氏 距 离 用 来 度量 两 点 之 间 的 步行 距离 。 然 而 ， 
相似 性 度量 上 的 一 个 约束 是 ， 实 现 最 短 距 离 的 轨迹 不 能 穿越 墙 (11. 4. 1 节 ) 。 因 为 障碍 物 可 
能 出 现在 对 象 之 间 ， 因 此 两 个 对 象 之 间 的 距离 可 能 需要 通过 几何 学 计算 (例如 ， 涉 及 三 角 
测量 ) 导出 。 如 果 涉 及 大 量 对 象 和 大 量 障碍 物 ， 则 计算 的 开销 可 能 很 大 。 
含有 障碍 物 的 聚 类 问题 可 以 用 图 概念 表示 。 首 先 ， 如 果 在 区 域 R 内 连接 点 p 和 另 一 个 
点 4 的 直线 不 与 任何 障碍 物 相交 ， 则 称 点 p 是 从 点 9 可 见 的 (visible)。 图 VG =(V, E) 是 
一 个 可 见 图 (visibility graph) ， 如 果 它 满足 以 下 条 件 : 障碍 物 的 每 个 顶点 对 应 了 中 的 一 个 结 
A, FEV PHM», Aly, 被 正中 的 一 条 边 相连 ， 当 且 仅 当 它们 代表 的 对 应 顶点 是 彼 
此 可 见 的 。 令 VG'=(V', E) 是 通过 在 V 中 添加 两 个 点 p 和 4g， 由 VG 创建 的 可 见 图 。 如 果 
灰 中 两 个 点 是 互相 可 见 的 ， 则 E' 包 含 连接 这 两 点 的 边 。 两 点 p 和 9g 间 的 最 短路 径 将 是 VG 的 
一 条 子路 径 ， 如 图 11. 16a 所 示 。 我 们 看 到 ， 这 条 路 径 从 点 pp Fv, v hy, 的 一 条 边 开 始 ， 
经 过 VG 中 的 一 条 路 径 ， 然 后 结束 于 v Mv, Fg 的 边 。 




















图 11.16 含有 障碍 物 对 象 (o Mo) 的 聚 类 : a) 一 个 可 见 图 ; b) BAH 
区 域 的 三 角 划 分 。 取 自 Tung, Hou 和 Han [THH01] 


为 降低 两 个 对 象 或 点 间距 离 计算 的 开销 ， 可 以 使 用 一 些 预 处 理 或 优化 技术 。 一 种 方法 是 
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把 邻近 的 点 首先 聚集 到 一 些微 簇 中 。 此 过 程 可 以 这 样 来 做 ， 先 用 三 角 划 分 的 方法 把 区 域 R 
划分 成 若干 三 角形 ， 然 后 使 用 类 似 于 BIRCH 或 DBSCAN 的 方法 ， 把 同一 个 三 角形 中 相似 的 
FE BEF, OPS 11. 16b 所 示 。 通 过 处 理 这 些微 复 而 不 是 个 体 点 ， 就 会 降低 总 的 计算 
量 。 然后， 可 以 执行 预计 算 来 构造 两 种 基于 最 短路 径 计算 的 连接 索引 : (1) W 索引， 针对 
任意 一 对 障碍 物 顶 点 ; (2) MV 索引 ， 针 对 任意 一 对 微 徐 和 障碍 物 项 点 。 使 用 这 些 索 引 有 助 
于 进一步 优化 总 体 性 能 。 

使 用 这 样 的 预计 算 和 优化 策略 ， 任 意 两 点 的 距离 (在 微 秘 的 粒度 水 平 上 〉 都 可 以 有 效 
地 计算 。 因 此 ， 育 类 过 程 可 以 以 一 种 类 似 于 CLARANS 那样 典型 有 效 的 -中 心 点 算法 来 完 
成 ， 并 能 在 大 数据 集 上 取得 很 好 的 聚 类 质量 。 


11.5 小 结 


。 在 传统 的 聚 类 分 析 中 ， 对 象 被 互 斥 地 指派 到 一 个 能 中 。 然 而 ， 在 许多 应 用 中 ， 需 要 以 模糊 或 概率 方 
式 把 一 个 对 象 指 旅 到 一 个 或 多 个 和 能。 模糊 聚 类 和 基于 概率 模型 的 聚 类 人 允许 一 个 对 象 属于 一 个 或 多 个 
和 能。 划分 矩阵 记录 对 象 属 于 簇 的 隶属 度 。 

。 基于 概率 模型 的 聚 类 假定 每 个 能 是 一 个 有 参 分 布 。 使 用 待 聚 类 的 数据 作为 观测 样本 ， 我 们 可 以 估计 
NSM 

。 混合 模型 假定 观测 对 象 是 来 自 多 个 概率 能 的 实例 的 混合 。 从 概念 上 讲 ， 每 个 观测 对 象 都 是 通过 如 下 
方法 独立 地 产生 的 : 首先 根据 秘 概 率 选 择 一 个 概率 能 ， 然 后 根据 选 定 艇 的 概率 密度 函数 选择 一 个 
样本 。 

。 期 望 最 大 化 (EM) 算法 是 一 个 框架 ， 它 逼近 最 大 似 然 或 统计 模型 参数 的 后 验 概率 估计 。EM 算法 
可 以 用 来 计算 模糊 聚 类 和 基于 概率 模型 的 聚 类 。 

© 高 维 数据 对 来 类 分 析 提 出 了 一 些 挑战 ， 包 括 如 何 对 高 维 秘 建 模 和 如 何 搜索 这 样 的 簇 。 

。 高 维 数 据 聚 类 方法 主要 有 两 类 : 子 空间 夷 类 方法 和 维 归 约 方法 。 子 宝 间 人 寨 类 方法 在 原 空间 的 子 空间 
中 搜索 和 能。 例子 包括 子 空间 搜索 方法 、 基 于 相关 性 的 聚 类 方法 和 双 聚 类 方法 。 维 归 约 方法 创建 较 低 
维 的 新 空间 ， 并 在 新 空间 搜索 能 。 

。 双 聚 类 方法 同时 聚 类 对 象 和 属性 。 双 艇 的 类 型 包括 具有 常数 值 、 行 / 列 常数 值 、 相 和 干 值 、 行 / 列 相干 
演变 值 的 双 簇 。 双 聚 类 方法 的 两 种 主要 类 型 是 基于 最 优化 的 方法 和 枚 举 方法 。 

。 谱 聚 类 是 一 种 维 归 约 方法 。 其 一 般 思 想 是 使 用 相似 矩阵 构建 新 维 。 

。 聚 类 图 和 网 络 数据 有 许多 应 用 ， 如 社会 网 络 分 析 。 挑 战 包 括 如 何 度量 图 中 对 象 之 间 的 相似 性 和 如 何 
为 图 和 网 络 数据 设计 聚 类 方法 。 

。 测 地 距 是 图 中 两 个 顶点 之 间 的 边 数 ， 它 可 以 用 来 度量 相似 性 。 另 外 ， 像 社会 网 络 这 样 的 图 的 相似 性 
也 可 以 用 结构 情境 和 随机 游 走 度量 。SimRank 是 一 种 基于 结构 情境 和 随机 游 走 的 相似 性 度量 。 

。 图 聚 类 可 以 建 模 为 计算 图 割 。 最 稀 疏 的 割 导 致 好 的 聚 类 ， 而 模块 性 可 以 用 来 度量 认 类 质量 。 

° SCAN 是 一 种 图 聚 类 算法 ， 它 搜索 图 ， 识 别 良 连通 的 成 分 作为 繁 。 

。 约束 可 以 用 来 表达 具体 应 用 对 聚 类 分 析 的 要 求 或 背景 知识 。 聚 类 约束 可 以 分 为 实例 、 簇 和 相似 性 度 
量 上 的 约束 。 实 例 上 的 约束 可 以 是 必须 联系 约束 和 不 能 联系 约束 。 约 束 可 以 是 硬性 的 或 软 性 的 。 

。 聚 类 的 硬性 约束 可 以 通过 在 聚 类 指派 过 程 严格 遵守 约束 而 强制 实施 。 软 性 约束 聚 类 可 以 看 做 一 个 优 
化 问题 。 可 以 使 用 启发 式 方法 加 快 约束 聚 类 的 速度 。 


11.6 习题 

11.1 传统 的 聚 类 方法 是 僵硬 的 ， 因 为 它们 要 求 每 个 对 象 排他 性 地 只 属于 一 个 答 。 解释 为 什么 这 是 模糊 聚 
类 的 特例 。 你 可 以 使 用 上 - 均值 作为 例子 。 

11.2 AUElectronics 销售 1000 种 产品 已 ，…， Pioo 。 考 虑 顾客 Ada, Bob 和 Cathy, Ada 和 Bob 购买 3 种 同 
样 的 产品 已 ，P, 和 P;。 对 于 其 他 997 种 产品 ，Ada 和 Bob 独立 地 随机 购买 其 中 7 件 。 Cathy 购买 10 
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件 产品 ， 随 机 地 从 1000 种 产品 中 选择 。 使 用 欧 氏 距离 ，dist( Ada, Bob) >dist( Ada, Cathy) 的 概率 
是 多 少 ? 如 果 使 用 Jaccard 相似 度 〔 第 2 章 ) IE? 从 这 个 例子 你 学 到 了 什么 ? 
11.3 WEB xJ 是 一 个 具有 相干 值 的 双 徐 ， 当 且 仅 当 对 于 任意 ,i el 和 ji, he, 都 有 ein inn = Figg ~ Signo 
11.4 比较 MaPle 算法 (11.2.3 节 ) 和 闭 频 繁 项 集 控 所 算法 CLOSET( Pei, Han 和 Mao[ PHM00] ) 。 它 们 的 
主要 相似 处 和 差别 是 征 么 ? 
11.5 SimRank 是 图 和 网 络 数据 聚 类 的 相似 性 度量 。 
(a) 证 明 : 对 于 SimRank 计算 ,lims,(u, v) =s(u, v)。 
(b) 证 明 : 对 于 SimRank, s(u, v) =p(u, v)。 
11.6 在 大 型 稀疏 图 中 ， 在 平均 情况 下 ， 每 个 顶点 的 度数 都 很 低 。 使 用 SimRank ， 相 似 矩 阵 仍然 很 稀疏 吗 ? 
如 果 是 ， 在 什么 意义 下 ”如 果 不 是 ， 为 什么 ? 解释 你 的 答案 。 
11.7 比较 SCAN (11.3.3 节 ) 和 DBSCAN (10.4.1 节 ) 算法 。 它 们 的 相似 处 和 差别 是 什么 ? 


11.8 考虑 划分 聚 类 和 簇 上 的 如 下 约束 :每 个 灸 中 的 对 象 数 必须 在 二 (1 -5) MO +8) 之 间 ， 其中, n 


是 数据 集中 的 对 象 总 数 , 是 期 望 的 能 数 ，5 在 [0, 1) 中 是 一 个 参数 。 你 能 扩充 -均值 方法 来 处 
理 这 一 约束 吗 ? 讨论 该 约束 是 硬性 约束 和 软 性 约束 两 种 情况 。 


11.7 文献 注释 


Héppner Klawonn, Kruse 和 Runkler[ HKKR99] 给 出 了 模糊 聚 类 的 详细 讨论 。 模 糊 c - 均值 算法 ( 例 
11.7 基于 该 算法 ) 由 Bezdek[ Bez81] 提出 。Fraley 和 Raftery[ FR02] 给 出 了 基于 模型 的 素 类 分 析 和 概率 模 
型 的 全 面 综述 。McLachlan 和 Basford[ MB88] 系统 介绍 了 聚 类 分 析 中 的 混合 模型 和 应 用 。 

Dempster, Laird 和 Rubinf DLR77] 被 公认 为 首次 引进 EM 算法 ， 并 对 其 命名 。 然 而 ， 正 如 [DLR77 ] 
中 所 承认 的 ，EM 算法 的 思想 以 前 “在 不 同 的 环境 下 提出 过 多 次 ”"。Wu[ Wu83] 给 出 了 EM 算法 的 正确 
分 析 。 

混合 模型 和 EM 算法 广泛 用 在 许多 数据 挖掘 应 用 中 。 基 于 模型 的 聚 类 、 混 合 模型 和 EM 算法 的 介绍 可 
以 在 最 近 的 机 器 学 习 和 统计 学 习 教 科 书 中 找到 ， 如 Bishop[ Bis06 ] , Marsland[ Mar09] 和 Alpaydin[ Alpll]。 

正如 Beyer 等 [BGRS99] 所 指出 的 ， 维 度 增加 严重 影响 距离 函数 。 它 对 分 类 、 聚 类 和 半 监 督学 习 的 各 
种 技术 都 有 显著 的 影响 (Radovanovic , Nanopoulos 和 Ivanovié[ RNIO9] ) 。 

Kriegel, Kroger 和 Zimek[KKZ09] 给 出 了 关于 高 维 数据 聚 类 方法 的 全 面 综述 。CLIQUE 算法 是 由 Agraw- 
al, Gehrke, Gunopulos 和 Raghavan[ AGGR98] 开发 的 。PROCLUS 算法 是 由 Aggawal, Procopiuc, Wolf 等 
[APW*99] 提出 的 。 

双 聚 类 技术 最 初 是 由 Hartigan[ Har72] 提出 的 。 术 语 双 聚 类 (biclustering) 是 由 Mirkin[ Mir98] 创造 
的 。Cheng 和 Chureh[ CC00] 把 双 聚 类 引入 基因 表达 数据 分 析 。 还 有 许多 双 依 类 模型 和 方法 的 研究 。 ô-p K 
的 概念 是 Wang. Wang, Yang 和 Yu[ WWYY02] 引进 的 。 关 于 更 详尽 的 综述 ， 见 Madeira 和 Oliveira 
[ MO004] ， 以 及 Tanay、Sharan 和 Shamir[ TSS04] 。 在 本 章 中 ,我 们 介绍 8 - 能 算法 ， 分 别 Cheng 和 Church 
[ CC00] Pei, Zhang, Cho 等 【PZC*03] 作为 双 聚 类 的 基于 最 优化 方法 和 枚 举 方法 的 例子 。 

` Donath 和 Hoffman [ DH73 ] Fiedler [ Fie73 ] FAIT HRX., AH, 我 们 使 用 Ng, Jordan 和 Weiss 
[NJW01] 提出 的 一 个 算法 作为 例子 。 关 于 谱 聚 类 的 教程 ， 见 Luxburg[ Lux07], 

聚 类 图 和 网 络 数据 是 一 个 重要 的 、 快 速成 长 的 课题 。Schaeffer[ Sch07] 给 出 了 一 个 综述 。 相似 性 的 
SimRank 度量 是 Jeh 和 Widom[ JW02a] 提出 的 。Xu 等 [XYFS07] 提出 了 SCAN 算法 。Arora、Rao 和 Vazira- 
ni[ ARV09] 讨论 了 最 稀 朴 的 割 和 近似 算法 。 

AAA RARER YE BIE, Davidson, Wagstaff 和 Basu[ DWB06] 提出 了 提供 信息 和 一 致 的 度量 。 
COP-k -均值 算法 由 Wagstaff 等 [ WCRS01] 给 出 。CVQE 算法 由 Davidson 和 Ravi[ DROS] 提出 。Tung、 
Han; Lakshmanan 和 Ng[ THLNO! ] 构建 了 基于 用 户 指定 约束 的 基于 约束 的 聚 类 框架 。Tung、Hou 和 Han 
[THH01] 提出 了 一 种 存在 物理 障碍 物 的 情况 下 的 基于 约 东 的 空间 聚 类 的 有 效 方法 。 
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离 群 点 检测 


想象 你 是 信用 卡 公司 的 交易 稽核 员 。 为 了 保护 客户 免 受信 用 卡 欺 诈 ， 你 特别 关注 很 不 同 
于 典型 情况 的 信用 卡 使 用 。 例 如 ， 如 果 一 次 购买 量 比 卡 主 的 通常 购买 量 大 得 多 ， 如 果 该 购买 
远离 卡 主 的 居住 地 ， 则 该 购买 是 可 疑 的 。 你 想 在 交易 出 现时 就 尽快 检测 这 种 交易 ， 并 且 与 卡 
主 联系 进行 核实 。 这 是 许多 信用 卡 公司 通常 做 的 事 。 什 么 类 型 的 数据 挖掘 技术 可 以 帮助 检测 
这 种 可 颖 的 交易 ? 

大 部 分 信用 卡 交易 都 是 正常 的 。 然 而 ， 如 果 信 用 卡 被 盗 ， 则 交易 模式 通常 会 显著 改 
购物 地 点 和 购买 的 商品 通常 都 很 不 同 于 真正 的 卡 主 和 其 他 顾客 。 信 用 卡 欺诈 检 测 的 基 
本 思想 是 识别 那些 非常 不 同 于 正常 情况 的 交易 。 

离 群 点 检测 ( 又 称 为 异常 检测 ) 是 找 出 其 行为 很 不 同 于 预期 对 象 的 过 程 。 这 种 对 象 称 
为 离 群 点 或 异常 。 除 欺诈 检测 外 ， 离 群 点 检测 在 许多 应 用 中 都 是 重要 的 ， 如 医疗 处 理 、 公 共 
安全 、 工 业 损 毁 检测 、 图 像 处 理 、 传 感 器 /视频 网 络 监视 和 和 人 侵 检 测 。 

离 群 点 检测 和 聚 类 分 析 是 两 项 高 度 相关 的 任务 。 聚 类 发 现 数据 集中 的 多 数 模式 并 据 此 组 
织 数 据 ， 而 离 群 点 检测 则 试图 捕获 那些 显著 偏离 多 数 模 式 的 异常 情况 。 离 群 点 检测 和 聚 类 服 
务 于 不 同 目 的 。 

本 章 研究 离 群 点 检测 技术 。12. 1 节 定 义 不 同 类 型 的 离 群 点 。12.2 节 概 述 离 群 点 检测 方 
法 。 本 章 的 其 余部 分 将 详细 地 研究 离 群 点 检测 方法 ， 这 些 方法 按 类 别 组 织 ， 有 统计 学 的 
(12.3 节 )、 基 于 邻近 性 的 (12.4 $), EF RAN (12.5 节 ) 和 基于 分 类 的 (12.6 节 )， 
此 外 ,我们 还 将 学 习 挖 掘 情境 离 群 点 和 集体 离 群 点 (12.7 节 )， 高 维 数据 的 离 群 点 检测 
(12.8 节 ) 。 


12.1 离 群 点 和 离 群 点 分 析 
先 定义 什么 是 离 群 点 ， 对 不 同类 型 的 离 群 点 分 类 ， 然 后 讨论 离 群 点 检测 的 挑战 。 


12.1.1 什么 是 离 群 点 

假定 使 用 一 个 给 定 的 统计 过 程 来 产生 数据 对 象 集 。 离 群 点 (outlier) 是 一 个 数据 对 象 ， 
它 显著 不 同 于 其 他 数据 对 象 ， 好 像 它 是 被 不 同 的 机 制 产生 的 一 样 。 为 了 容易 叙述 ， 本 章 可 能 
称 非 离 群 点 的 数据 对 象 为 “正常 ”或 期 望 数 据 。 类 似 地 ， 称 离 群 点 为 “异常 ”数据 。 








恋 
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例 12.1 离 群 点 。 在 图 12. 1 中 ， 大 部 分 对 象 都 RO ZTN 
粗略 地 服从 高 斯 分 布 。 然 而 ， 区 域 R 中 的 对 象 显著 不 o o ‘ 9) 
同 。 它 不 太 可 能 与 数据 集中 的 其 他 对 象 服从 相同 的 分 ® o ve” 
布 。 因 此 ， 在 该 数据 集中 ，R 中 的 对 象 是 离 群 点 。 上 o 人 。 

离 群 点 不 同 于 噪声 数据 。 如 第 3 章 所 提 到 的 ， 品 one, “ 

声 是 被 观测 变量 的 随机 误差 或 方差 。 一 般 而 言 , 噪声 eè aa 
在 数据 分 析 (包括 离 群 点 分 析 ) 中 不 是 令 人 感 兴 e œ o 
© 


的 。 例 如 ， 在 信用 卡 欺诈 检测 ， 顾 客 的 购买 行为 可 以 
用 一 个 随机 变量 建 模 。 一 位 顾客 可 能 会 产生 某 些 看 上 ”图 12.1 区 域 尺 中 的 对 象 是 离 群 点 
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去 像 “ 随 机 误差 ”或 “方差 ”的 “噪声 交易 "”， 如 买 一 份 较 丰 盛 的 午餐 ， 或 比 通常 多 要 了 
一 杯 著 啡 。 这 种 交易 不 应 该 视 为 离 群 点 ， 否 则 信用 卡 公司 将 因 验 证 太 多 的 交易 而 付出 沉重 代 
价 。 公 司 也 会 因为 用 许多 假 警 报 打扰 顾客 而 失去 他 们 。 与 许多 其 他 数据 分 析 和 数据 挖掘 任务 
一 样 ， 应 该 在 离 群 点 检测 前 就 删除 噪声 。 

离 群 点 是 有 趣 的 ， 因 为 怀疑 产生 它们 的 机 制 不 同 于 产生 其 他 数据 的 机 制 。 因 此 ， 在 离 群 
点 检测 时 ， 重 要 的 是 搞 清楚 为 什么 检测 到 的 离 群 点 被 某 种 其 他 机 制 产生 。 通 常 这 样 做 ， 在 其 

离 群 点 检测 还 与 演变 数据 集 上 的 新 颖 性 检测 (novelty detection) 相关 。 例 如 ， 通 过 检测 
新 内 容 不 断 出 现 的 社会 媒体 网 站 ， 新 颖 性 检测 可 以 及 时 地 识别 新 的 主题 和 趋势 。 新 主题 最 初 
可 能 以 离 群 点 形式 出 现 。 在 某 种 程度 上 ， 离 群 点 检测 与 新 颖 性 检测 在 建 模 和 方法 上 都 有 许多 
相似 之 处 。 然 而 ， 两 者 的 关键 区 别 是 ， 在 新 颖 性 检测 时 ， 一 旦 新 主题 被 证 实 ， 则 通常 把 它们 
合并 到 正常 行为 的 模型 中 ， 这 样 接 中 而 来 的 实例 不 再 被 视 为 离 群 点 。 


12.1.2 离 群 点 的 类 型 


一 般 而 言 ， 离 群 点 可 以 分 成 三 类 : 全 局 离 群 点 、 情 境 (或 条 件 ) 离 群 点 和 集体 离 群 点 。 
下 面 逐 一 考察 这 些 类 别 。 

1. 全 局 离 群 点 

在 给 定 的 数据 集中 ， 一 个 数据 对 象 是 全 局 离 群 点 (global outlier) ， 如 果 它 显著 地 偏离 数 
据 集中 的 其 余 对 象 。 全 局 离 群 点 有 时 也 称 为 点 异常 ， 是 最 简单 的 一 类 离 群 点 。 大 部 分 离 群 点 


检测 方法 都 旨 在 找 出 全 局 离 群 点 。 
例 12.2 全 局 离 群 点 。 再 次 考虑 图 12. 1 中 的 点 。 区 域 尺 中 的 点 显著 地 偏离 数据 集 的 其 
余部 分 ， 因 此 是 全 局 离 群 点 的 实例 。 m 


为 了 检测 全 局 离 群 点 ， 关 键 问题 是 针对 所 考虑 的 应 用 ， 找 到 一 个 合适 的 偏离 度量 。 已 经 
提出 了 各 种 度量 ， 并 且 基 于 这 些 度量 ， 离 群 点 检测 被 划分 成 不 同 的 类 别 。 稍 后 再 详细 讨论 这 
一 问题 。 

在 许多 应 用 中 ， 全 局 离 群 点 检测 都 是 重要 的 。 例 如 ， 考 虑 计算 机 网 络 的 人 侵 检测 。 如 果 
一 台 计 算 机 的 通信 行为 非常 不 同 于 正常 模式 〈 例 如 ， 在 短 时 间 内 ， 大 量 的 包 被 广播 ) ， 则 该 
行为 可 以 看 做 一 个 全 局 离 群 点 ， 而 对 应 的 计算 机 可 能 是 黑客 的 受害 者 。 另 一 个 例子 ， 在 交易 
审计 系统 中 ， 不 遵守 常规 的 交易 可 能 被 视 为 全 局 离 群 点 ， 并 且 应 该 搁置 ， 以 便 进一步 考察 。 

2. 情境 离 群 点 

“今天 的 温度 为 28%C 。 这 是 一 个 异常 (OP RBA) 吗 ?” 这 依赖 于 时 间 和 地 点 ! 如 果 是 
多 伦 多 的 冬天 ， 则 这 是 一 个 离 群 点 ， 如 果 是 多 伦 多 的 夏天 ， 则 这 是 正常 的 。 与 全 局 离 群 点 检 
测 不 同 ， 在 这 种 情况 下 ,今天 的 温度 值 是 否 是 一 个 离 群 点 依赖 于 情境 一 一 时 间 、 地 点 和 可 能 
的 其 他 因素 。 

在 给 定 的 数据 集中 ， 一 个 数据 对 象 是 情境 离 群 点 (contextual outlier) ， 如 果 关 于 对 象 的 
特定 情境 ， 它 显著 地 偏离 其 他 对 象 。 情 境 离 群 点 又 称 为 条 件 离 群 点 ， 因 为 它们 条 件 地 依赖 于 
选 定 的 情境 。 因 此 ， 在 情境 离 群 点 检测 中 ， 情 境 必须 作为 问题 定义 的 一 部 分 加 以 说 明 。 一 般 
地 ， 在 情境 离 群 点 检测 中 ， 所 考虑 数据 对 象 的 属性 划分 成 两 组 ， 

。 情境 属性 : 数据 对 象 的 情境 属性 定义 对 象 的 情境 。 在 温度 例子 中 ， 情 境 属性 是 时 间 

和 地 点 。 
。 TARE: 定义 对 象 的 特征 ， 并 用 来 评估 对 象 关于 它 所 处 的 情境 是 否 是 离 群 点 。 在 


第 12 章 离 群 点 检测 ' 353 


温度 例子 中 ， 行 为 属性 可 以 是 温度 、 湿 度 和 气压 。 

与 全 局 高 群 点 检测 不 同 ， 在 情境 离 群 点 检测 中 ， 一 个 对 象 是 否 是 离 群 点 不 仅 依赖 行为 属 
性 ， 而 且 还 依赖 情境 属性 。 行 为 属性 值 的 一 个 格局 在 某 种 情境 下 可 能 是 离 群 点 (例如 ， 对 
于 多 伦 多 的 冬季 室外 ，28 民 是 离 群 点 ) ， 但 是 在 另 一 情境 下 不 是 离 群 点 (例如 ， 对 于 多 伦 多 
的 夏季 室外 ，28 人 不 是 离 群 点 ) 。 

情境 离 群 点 是 局 部 离 群 点 的 推广 。 局 部 离 群 点 是 基于 密度 的 离 群 点 检测 方法 引进 的 概 
念 。 数 据 集中 的 一 个 对 象 是 局 部 离 群 点 (local outlier) ， 如 果 它 的 密度 显著 地 偏离 它 所 在 的 
局 部 区 域 的 密度 。 稍 后 ， 我 们 将 在 12. 4.3 节 更 详细 讨论 局 部 离 群 点 分 析 。 

全 局 离 群 点 检测 可 以 看 做 情境 离 群 点 检测 的 特例 ， 其 中 情境 属性 集 为 空 。 换 言 之， 全 局 
离 群 点 检测 使 用 整个 数据 集 作为 情境 。 情 境 离 群 点 分 析 为 用 户 提供 了 灵活 性 ， 因 为 用 户 可 以 
在 不 同 的 情境 下 考察 离 群 点 ， 这 在 许多 应 用 中 都 是 非常 期 望 的 。 

例 12. 3 ”情境 离 群 点 。 在 信用 卡 欺诈 检测 中 ， 除 了 全 局 离 群 点 外 ， 分 析 者 还 可 以 考虑 
不 同情 境 下 的 离 群 点 。 考 虑 一 位 顾客 ， 他 使 用 了 信用 卡 额度 的 90% 。 如 果 认为 这 位 顾客 属 
于 具有 低 信用 额度 的 顾客 群 ， 则 这 种 行为 可 能 不 被 视 为 离 群 点 。 然 而 ， 高 收入 群 顾客 的 类 似 
行为 则 可 能 被 视 为 离 群 点 ， 如 果 他 们 的 余额 常常 超过 他 们 的 信用 额度 。 这 种 离 群 点 可 能 带 来 
商机 提高 这 种 顾客 的 信用 额度 可 能 带 来 新 的 收益 。 m 

除了 对 象 在 行为 属性 空间 对 多 数 的 偏离 度量 外 ， 应 用 中 情境 离 群 点 检测 的 质量 还 依赖 于 
情境 属性 的 意义 。 情 境 属性 多 半 由 领域 专家 确定 ， 被 看 做 背景 知识 的 一 部 分 。 在 许多 应 用 
中 ， 得 到 足够 的 信息 确定 情境 属性 或 收集 高 质量 的 情境 数据 都 并 非 易 事 。 

“在 情境 离 群 点 检测 中 ， 如 何 确切 表示 有 意义 的 情境 ?” 一 种 直截了当 的 方法 是 简单 地 
使 用 情境 属性 的 分 组 作为 情境 。 然 而 ， 这 可 能 没什么 效果 ， 因 为 某 些 分 组 可 能 没有 足够 的 数 
据 或 充斥 噪声 。 更 一 般 的 方法 是 使 用 数据 对 象 在 情境 属性 空间 中 的 相似 性 。 我 们 将 在 12.4 
节 详细 讨论 这 种 方法 。 

3 集体 高 群 点 

假设 你 是 AllElectronics 的 供应 链 经 理 ， 每 天 处 理 数 以 千 计 的 订单 和 出 货 。 如 果 一 个 订单 
的 出 货 延 误 ， 则 可 能 不 认为 是 离 群 点 ， 因 为 统计 表明 延误 时 党 发生。 然而， 如 果 一 天 有 100 
个 订单 延误 ， 则 你 必须 注意 。 这 100 个 订单 整体 来 看 ， 形 成 一 个 离 群 点 ， 尽 管 如 果 单个 考 
虑 ， 则 它们 每 个 或 许 都 不 是 离 群 点 。 你 可 能 需要 更 详细 地 整个 考察 这 些 订单 ， 搞 清楚 出 货 
问题 。 

给 定 一 个 数据 集 ， 数 据 对 象 的 一 个 子 集 形成 集体 离 群 点 (collective outlier), ， 如 果 这 些 
对 象 作为 整体 显著 偏离 整个 数据 集 。 重 要 的 是 ， 个 体 数据 对 象 可 能 不 是 离 群 点 。 

例 12.4 集体 离 群 点 。 在 图 12. 2 中 ， 黑 色 对 象 人 为 O 00 OOD 
整体 形成 一 个 集体 离 群 点 ， 因 为 这 些 对 象 的 密度 比 数据 集 o 
中 的 其 他 对 象 高 得 多 。 然 而 ， 每 个 黑色 对 象 个 体 对 于 整个 O O 


数据 集 并 非 离 群 点 。 加 O O 
集体 离 群 点 检测 有 许多 应 用 。 例 如 ， 在 入侵 检测 时 ， Ww O O 
从 一 台 计算 机 到 另 一 台 计 算 机 的 拒绝 服务 包 是 正常 的 , žo O O 
全 不 视 为 离 群 点 。 然 而 ， 如 果 多 台 计 算 机 不 断 地 相互 发 关 CG O O CO O 
拒绝 服务 包 ， 则 它们 可 能 被 看 做 集体 离 群 点 。 所 涉及 的 计 

算 机 可 能 被 怀疑 遭受 攻击 。 另 一 个 例子 ， 两 个 当事人 之 间 图 !2 2 黑色 对 象形 成 集体 离 群 点 
的 股票 交易 被 认为 是 正常 的 。 然 而 ， 短 期 内 ， 相 同 股票 在 一 小 群 当事人 之 间 的 大 量 交易 就 是 
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集体 离 群 点 ， 因 为 它们 可 能 是 某 些 人 操纵 股市 的 证 据 。 


与 全 局 或 情境 离 群 点 检测 不 同 ， 在 集体 离 群 点 检测 中 ， 不 仅 必 须 考 虑 个 体 对 象 的 行为 ， 


而 且 还 要 考虑 对 象 组 群 的 行为 。 因 此 ， 为 了 检测 集体 离 群 点 ， 需 要 关于 对 象 之 间 联 系 的 背景 
知识 ， 如 对 象 之 间 的 距离 或 相似 性 测量 方法 。 


总 而 言 之 ， 数 据 集 可 能 有 多 种 类 型 的 离 群 点 。 此 外 ， 一 个 对 象 可 能 属于 多 种 类 型 的 离 群 


点 。 在 商业 中 ,不 同 的 离 群 点 可 能 用 于 不 同 的 应 用 或 不 同 的 目的 。 全 局 离 群 点 检测 最 简单 。 
情境 离 群 点 检测 需要 背景 知识 来 确定 情境 属性 和 情境 。 集 体 离 群 点 检测 需要 背景 信息 来 对 对 
象 之 间 的 联系 建 模 ， 以 便 找 出 离 群 点 的 组 群 。 


12.1.3 离 群 点 检测 的 挑战 


离 群 点 检测 在 许多 应 用 中 都 是 有 用 的 ,但 是 仍然 面临 许多 挑战 : 
。 正常 对 象 和 高 群 点 的 有 效 建 模 。 离 群 点 检测 的 质量 高 度 依赖 于 正常 ( 非 离 群 点 ) 对 


象 和 离 群 点 的 建 模 。 通 常 ， 为 数据 的 正常 行为 构建 一 个 综合 模型 如 果 不 是 不 可 能 
的 话 ， 也 是 一 个 很 大 的 挑战 。 一 部 分 原因 是 很 难 枚 举 一 个 应 用 中 所 有 可 能 的 正常 
行为 。 


正常 数据 与 异常 数据 ( 离 群 点 ) 之 间 的 边界 通常 并 不 清晰 。 它 们 之 间 可 能 有 很 宽 的 灰 


色 地 带 。 因 此 ， 尽 管 一 些 离 群 点 检测 方法 对 数据 集中 的 每 个 对 象 指定 一 个 “正常 对 象 ”或 
“ 离 群 点 ”标号 ， 但 是 其 他 方法 对 每 个 对 象 指定 一 个 得 分 ， 度 量 该 对 象 的 “ 离 群 性 " 。 





。 针对 应 用 的 离 群 点 检测 。 从 技术 上 讲 ， 在 离 群 点 检测 中 ， 选 择 相似 性 /距离 度量 和 描 


述 数据 对 象 的 联系 模型 是 至 关 重 要 的 。 不 幸 的 是 ， 这 种 选择 通常 依赖 于 应 用 。 不 同 
的 应 用 可 能 具有 很 不 相同 的 要 求 。 例 如 ， 在 诊所 数据 分 析 中 ， 小 偏离 就 可 能 是 重要 
的 ， 足以 证 实 离 群 点 。 相 反 ， 在 市 场 分 析 中 ， 对 象 通常 有 很 大 的 波动 ， 因 此 需要 显 
著 的 偏差 才能 证 实 离 群 点 。 离 群 点 检测 高 度 依赖 于 应 用 类 型 使 得 不 可 能 开发 通用 的 
离 群 点 检测 方法 。 相 反 ， 必 须 开 发 针对 具体 应 用 的 离 群 点 检测 方法 。 

在 高 群 点 检测 中 处 理 噪 声 。 正 如 前 面 提 到 的 ， 离 群 点 不 同 于 噪声 。 众 所 周知 ， 实 际 
数据 的 质量 往往 很 差 。 噪 声 常常 不 可 避免 地 存在 于 许多 应 用 所 收集 的 数据 集中 。 噪 
声 可 能 以 属性 值 的 偏差 ， 甚 至 缺失 值 的 形式 出 现 。 低 质量 的 数据 和 噪声 的 存在 给 离 
群 点 检测 带 来 了 巨大 的 挑战 。 它 们 可 能 扭曲 数据 ， 模 糊 正 常 对 象 与 离 群 点 之 间 的 差 
别 。 此 外 ， 品 声 和 缺失 数据 可 能 “掩盖 ” 离 群 点 ， 降 低 离 群 点 检测 的 有 效 性 一 一 离 
群 点 可 能 看 上 去 像 “伪装 的 ”噪声 点 ， 而 离 群 点 检测 方法 可 能 错误 地 把 噪声 点 识别 
成 离 群 点 。 

可 理解 性 。 在 许多 应 用 中 ， 用 户 可 能 不 仅 要 检测 离 群 点 ， 而 且 要 知道 被 检测 到 的 点 
为 何 是 离 群 点 。 为 了 满足 可 理解 性 要 求 ， 离 群 点 检测 方法 必须 提供 某 种 检测 理由 。 
例如 ， 可 以 使 用 统计 学 方法 ， 基 于 该 对 象 被 大 多 数 数据 的 相同 机 制 产 生 的 似 然 性 ， 
说 明 该 对 象 是 离 群 点 的 可 能 性 。 似 然 越 小 ， 该 对 象 越 不 太 可 能 被 相同 的 机 制 产生 ， 
并 且 越 可 能 是 离 群 点 。 





本 章 的 其 余部 分 讨论 离 群 点 检测 方法 。 


12.2 离 群 点 检测 方法 


在 文献 和 实践 中 ， 有 许多 离 群 点 检测 方法 。 这 里 ， 我 们 用 两 种 方法 对 离 群 点 检测 方法 进 


行 分 类 。 第 一 ， 根 据 用 于 分 析 的 数据 样本 是 否 具有 领域 专家 提供 的 、 可 以 用 来 构建 离 群 点 检 
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测 模型 的 标号 ， 对 离 群 点 检测 方法 进行 分 类 ; 第 二 ， 根 据 各 方法 关于 正常 对 象 和 离 群 点 的 假 
定 ， 对 各 方法 分 组 。 


12.2.1 监督、 半 监 督 和 无 监督 方法 

如 果 可 以 得 到 专家 标记 的 正常 和 离 群 点 对 象 实例 ， 则 可 以 使 用 它们 建立 离 群 点 检测 模 
型 。 所 使 用 的 方法 可 以 划分 成 监督 方法 、 半 监督 方法 和 无 监督 方法 。 

1. 监督 方法 

监督 方法 对 数据 的 正常 性 和 异常 性 建 模 。 领 域 专家 考察 并 标记 基础 数据 的 一 个 样本 。 然 
后 ， 离 群 点 检测 可 以 用 分 类 问题 (第 8 章 、 第 9 章 ) 建 模 。 任 务 是 学 习 一 个 可 以 识别 离 群 
点 的 分 类 器 。 样 本 用 于 训练 和 检验 。 在 某 些 应 用 中 ， 专 家 可 能 只 标记 正常 对 象 ， 而 不 与 正常 
对 象 模型 匹配 的 其 他 对 象 都 视 为 离 群 点 。 其 他 方法 对 离 群 点 建 模 ， 并 且 把 不 与 离 群 点 模型 匹 
配 的 对 象 看 做 正常 的 。 

尽管 许多 分 类 方法 都 可 以 使 用 ,但 是 监督 的 离 群 点 检测 依然 面临 如 下 挑战 ; 

。 两 个 类 (正常 对 象 和 离 群 点 ) 是 不 平衡 的 。 即 离 群 点 的 总 体 通常 比 正常 对 象 的 总 体 
小 得 多 。 因 此 ， 可 以 使 用 处 理 不 平衡 类 的 方法 (8.6.5 节 ) ， 如 对 离 群 点 过 抽样 ( 即 
进行 复制 ) ， 提 高 它们 在 构建 分 类 器 训练 集中 的 分 布 。 由 于 数据 中 离 群 点 的 总 体 太 
小 ， 所 以 领域 专家 考察 和 用 于 训练 的 样本 数据 可 能 不 足以 代表 离 群 点 的 分 布 。 缺 乏 
离 群 点 样本 可 能 限制 了 所 构建 分 类 器 的 能 力 。 为 了 处 理 这 一 问题 ， 有 些 方 法 “ 构 
造 ” 人 工 离 群 点 。 

在 许多 应 用 中 ， 捕 获 尽 可 能 多 的 离 群 点 〈 即 离 群 点 检测 的 灵敏 度 或 召回 率 ) KEE 
常 对 象 误 当做 离 群 点 更 重要 。 因 此 ， 当 分 类 方法 用 于 监督 的 离 群 点 检测 时 ， 必 须 适 
当地 解释 ， 以 便 考 虑 应 用 关注 的 召回 率 。 

总 之 ， 由 于 与 其 他 数据 样本 相 比 离 群 点 很 稀少 ， 所 以 离 群 点 检测 的 监督 方法 必须 注意 如 
何 训练 和 如 何 解 释 分 类 率 。 

2. 无 监督 方法 

在 某 些 应 用 中 ， 没 有 标记 为 “正常 ”或 “ 离 群 点 ”的 对 象 。 因 此 ， 必 须 使 用 无 监督 的 
学 习 方 法 。 

无 监督 的 离 群 点 检测 方法 暗中 假定 : 正常 对 象 在 某 种 程度 上 是 “ 聚 类 的 ”。 换 言 之 ， 无 
监督 的 离 群 点 检测 方法 预料 正常 对 象 遵守 远 比 离 群 点 频繁 的 模式 。 正 常 对 象 不 必 落 入 一 个 组 
群 ， 具 有 高 度 相似 性 ， 而 是 可 以 形成 多 个 组 群 ， 每 个 组 群 具有 不 同 的 特征 。 然 而 ， 离 群 点 将 
是 远离 正常 对 象 的 组 群 。 

这 一 假定 并 非 总 是 成 立 。 例 如 ， 在 图 12. 2 中 ,正常 对 象 并 没有 强 模式 ， 而 是 均匀 分 布 
的 。 然 而 ， 集 体 离 群 点 在 一 个 小 区 域内 具有 很 高 的 相似 性 。 无 监督 方法 不 能 有 效 地 检测 这 种 
离 群 点 。 在 某 些 应 用 中 ， 正 常 对 象 发 散 地 分 布 ， 并 且 许 多 对 象 都 不 遵守 强 模式 。 例 如 ， 在 某 
些 入侵 检测 和 计算 机 病毒 检测 问题 中 ， 正 常 活动 是 很 发 散 的 ， 并 日 许多 都 不 落 人 高 质量 的 簇 
中 。 在 这 种 情况 下 ， 无 监督 方法 可 能 具有 很 高 的 假 正 例 率 一 一 它们 可 能 把 许多 正常 对 象 误 标 
记 为 离 群 点 (在 这 些 应 用 中 ， 误 标记 为 人 侵 或 病毒 ) ， 并 导致 许多 离 群 点 逃脱 检测 。 由 于 人 
侵 和 病毒 的 高 度 相 似 性 〈 即 它们 都 攻击 目标 系统 的 关键 资源 ) ， 所 以 使 用 监督 方法 对 离 群 点 
建 模 可 能 更 加 有 效 。 i 

许多 聚 类 方法 都 可 以 调整 ， 充 当 无 监督 的 离 群 点 检测 方法 。 其 中 心思 想 是 ， 先 找 出 复 ， 
然后 ,不 属于 任何 徐 的 对 象 都 被 检测 为 离 群 点 。 然 而 ， 这 种 方法 有 两 个 问题 。 第 一 ， 不 属于 
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任何 徐 的 对 象 可 能 是 噪声 ， 而 不 是 离 群 点 ; B, ARH, 再 找 出 离 群 点 的 开销 可 能 太 
大 。 通 常 假定 离 群 点 的 数量 远 少 于 正常 对 象 。 在 可 以 触及 实际 内 容 ( 即 离 群 点 ) 之 前 必须 
先 处 理 大 量 非 目标 数据 实体 〈 即 正常 对 象 ) 可 能 不 那么 吸引 人 。 最 近 的 无 监督 的 离 群 点 检 
测 方法 发 展 了 一 些 智 能 的 想法 ,直接 处 理 离 群 点 ， 而 不 必 显 式 和 完全 地 找 出 艇 。 在 12.4 节 
和 12. 5 节 分 别 讨论 基于 邻近 性 和 基于 聚 类 的 方法 时 ， 我 们 将 更 多 地 学 习 这 些 技术 。 

3. 半 上 监督 方法 

在 许多 应 用 中 ， 尽 管 得 到 一 些 被 标记 的 实例 是 可 行 的 ， 但 是 这 种 被 标记 的 实例 的 数量 通 
常 很 少 。 我 们 可 能 遇 到 这 种 情况 ， 只 有 少量 正常 和 离 群 点 对 象 被 标记 ， 而 大 部 分 数据 都 是 无 
标记 的 。 半 监督 的 离 群 点 检测 方法 正 是 用 来 处 理 这 种 情况 。 

半 监 督 离 群 点 检测 方法 可 以 看 做 半 监 督学 习 方 法 (9.7.2 节 ) 的 应 用 。 例 如 ， 当 有 一 些 
被 标记 的 正常 对 象 时 ， 我 们 可 以 使 用 它们 ， 与 邻近 的 无 标记 的 对 象 一 起 ， 训 练 一 个 正常 对 象 
的 模型 。 然 后 ， 使 用 这 个 正常 对 象 的 模型 来 检测 离 群 点 一 一 不 拟 合 这 个 正常 对 象 模型 的 对 象 
都 被 分 类 为 离 群 点 。 

如 果 只 有 一 些 被 标记 的 离 群 点 ， 则 半 监 督 的 离 群 点 检测 更 未 手 。 少 量 被 标记 的 离 群 点 不 
大 可 能 代表 所 有 可 能 的 离 群 点 。 因 此 ， 仅 基于 少量 被 标记 的 离 群 点 而 构建 的 离 群 点 模型 不 太 
可 能 是 有 效 的 。 为 了 提高 离 群 点 检测 的 质量 ， 可 以 从 由 无 监督 方法 得 到 的 正常 对 象 模型 那里 
获得 帮助 。 

关于 无 监督 方法 的 更 多 信息 ， 感 兴趣 的 读者 可 以 参阅 本 章 的 文献 注释 (12. 11 节 ) 。 


12.2.2 统计 方法 、 基 于 邻近 性 的 方法 和 基于 聚 类 的 方法 


正如 12. 1 节 所 述 ， 离 群 点 检测 方法 对 离 群 点 与 其 余数 据 做 出 假定 。 根 据 所 做 的 假定 ， 
可 以 把 离 群 点 检测 方法 分 为 三 类 : 统计 学 方法 、 基 于 邻近 性 的 方法 和 基于 聚 类 的 方法 。 

1. 统计 学 方法 

统计 学 方法 (又 称 为 基于 模型 的 方法 ) 对 数据 的 正常 性 做 出 假定 。 它 们 假定 正常 的 数 
据 对 象 由 一 个 统计 〈 随 机 ) 模型 产生 ， 而 不 遵守 该 模型 的 数据 是 离 群 点 。 

例 12. 5 使 用 统计 (高 斯 ) 模型 检测 离 群 点。 在 图 12. 1 中 ， 除 区 域 R 中 的 点 外 ， 其 他 
点 都 拟 合 一 个 高 斯 分 布 g。， 其 中 对 于 数据 空间 的 每 个 位 置 +，gp(x) 给 出 x 上 的 概率 密度 。 
这 样 ， 高 斯 分 布 go 可 以 用 来 对 正常 数据 ， 即 数据 集中 的 大 部 分 数据 点 建 模 。 对 于 区 域 尺 中 
的 每 个 对 象 ?， 可 以 估计 该 点 拟 合 该 高 斯 分 布 的 概率 go(?) 。 由 于 go(?) 太 低 ， 所 以 不 太 
可 能 由 该 高 斯 模型 产生 ， 因 此 它 是 离 群 点 。 E 

统计 学 方法 的 有 效 性 高 度 依赖 于 对 给 定数 据 所 做 的 统计 模型 假定 是 否 成 立 。 有 多 种 统计 
模型 。 例 如 ， 使 用 的 统计 模型 可 以 是 参数 的 或 非 参数 的 。 离 群 点 检测 的 统计 学 方法 将 在 
12. 3 节 详 细 讨论 。 

2. 基于 邻近 性 的 方法 

基于 邻近 性 的 方法 假定 一 个 对 象 是 离 群 点 ， 如 果 它 在 特征 空间 中 的 最 近邻 也 远离 它 ， 即 
该 对 象 与 它 的 最 近邻 之 间 的 邻近 性 显著 地 偏离 数据 集中 其 他 对 象 与 它们 的 近邻 之 间 的 邻 
近 性 。 

例 12. 6 使 用 邻近 性 检测 离 群 点 。 再 次 考虑 图 12. 1 中 的 对 象 。 如 果 使 用 对 象 的 3 个 最 
近邻 建 模 ， 则 区 域 R 中 的 对 象 显著 地 不 同 于 该 数据 集中 的 其 他 对 象 。 对 于 RR 中 的 两 个 对 象 ， 
它们 的 第 二 个 和 第 三 个 最 近邻 都 显著 地 比 其 他 对 象 的 第 二 个 和 第 三 个 最 近邻 更 远 。 因 此 ， 可 
以 把 R 中 的 对 象 标 记 为 基于 邻近 性 的 离 群 点 。 = 
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基于 邻近 性 的 方法 的 有 效 性 高 度 依 赖 于 所 使 用 的 邻近 性 (或 距离 ) 度量 。 在 某 些 应 
中 ， 这 种 度量 不 易 得 到 。 此 外 ， 如 果 离 群 点 相互 靠近 ， 则 基于 邻近 性 的 方法 常 RNA 
HAMAR. 

有 两 种 主要 的 基于 邻近 性 的 离 群 点 检测 方法 ， 即 基于 距离 的 和 基于 密度 的 离 群 点 检测 。 
基于 邻近 性 离 群 点 检测 在 12. 4 节 讨 论 。 

3. 基于 聚 类 的 方法 

基于 聚 类 的 方法 假定 正常 数据 对 象 属于 大 的 、 稠 密 的 艇 ， 而 离 群 点 属于 小 或 稀 玖 的 簇 ， 
或 者 不 属于 任何 能。 

例 12.7 使 用 聚 类 检测 离 群 点 。 在 图 12. 1 PRATER. EC, 包含 数据 集中 除 区 域 R 
中 的 点 之 外 的 所 有 点 。 簇 C, 是 个 很 小 的 簇 ， 只 包含 RR 中 的 两 个 点 。 与 徐 C, Hib, FEC, 很 
大 。 因 此 ， 基 于 育 类 的 方法 断言 R 中 的 两 个 点 是 离 群 点 。 

正如 前 面 第 10 章 和 第 11 章 所 讨论 的 ， 有 许多 聚 类 方法 。 因 此 也 有 许多 基于 聚 类 的 离 群 
点 检测 方法 。 聚 类 是 一 种 开销 很 大 的 数据 挖掘 操作 。 直 截 了 当地 采用 聚 类 方法 用 于 离 群 点 检 
测 可 能 开销 很 大 ， 内 而 不 能 很 好 地 扩 展 到 大 数据 集 上 。 基 于 聚 类 的 离 群 点 检测 方法 将 在 
12.5 节 详 细 讨 论 。 


12. 3 统计 学 方法 

与 聚 类 的 统计 学 方法 一 样 ， 离 群 点 检测 的 统计 学 方法 对 数据 的 正常 性 做 假定 。 它 们 假定 
数据 集中 的 正常 对 象 由 一 个 随机 过 程 〈 生 成 模型 ) 产生 。 因 此 ， 正 常 对 象 出 现在 该 随机 模 
型 的 高 概率 区 域 中 ， 而 低 概率 区 域 中 的 对 象 是 离 群 点 。 

离 群 点 检测 的 统计 学 方法 的 一 般 思想 是 : 学 习 一 个 拟 合 给 定数 据 集 的 生成 模型 ， 然 后 识 
别 该 模型 低 概率 区 域 中 的 对 象 ， 把 它们 作为 离 群 点 。 然 而 ， 有 许多 不 同方 法 来 学 习 生成 模 
型 。 一 般 而 言 ， 根 据 如 何 指定 和 如 何 学 习 模型 ， 离 群 点 检测 的 统计 学 方法 可 以 划分 成 两 个 主 
要 类 型 : 参数 方法 和 非 参 数 方法 。 

参数 方法 假定 正常 的 数据 对 象 被 一 个 以 @ 为 参数 的 参数 分 布 产生 。 该 参数 分 布 的 概率 
FARKA, O) 给 出 对 象 x 被 该 分 布 产生 的 概率 。 该 值 越 小 ,x 越 可 能 是 离 群 点 。 

非 参 数 方法 并 不 假定 先 验 统计 模型 ， 而 是 试图 从 输入 数据 确定 模型 。 注 意 ， 大 多 数 非 参 
数 方法 并 不 假定 模型 是 完全 无 参 的 。 ( 完全 无 参 假定 将 使 得 从 数据 学 习 模 型 是 不 可 能 的 。) 
相反 ， 非 参数 方法 通常 假定 参数 的 个 数 和 性 质 都 是 灵活 的 ， 不 预先 确定 。 非 参数 方法 的 例子 
包括 直方 图 和 核 密度 估计 。 


12.3.1 参数 方法 


本 节 介 绍 几 种 简单 、 实 用 的 离 群 点 检测 的 参数 方法 。 我 们 首先 讨论 基于 正 态 分 布 的 单 变 
量 的 参数 方法 。 然 后 ， 我 们 讨论 如 何 使 用 多 参数 分 布 处 理 多 变量 数据 。 

1. 基于 正 态 分 布 的 一 元 离 群 点 检测 

仅 涉及 一 个 属性 或 变量 的 数据 称 为 一 元 数据 。 为 简单 起 见 ， 通 常 假 定数 据 由 一 个 正 态 分 
布 产 生 。 然 后 ， 可 以 由 输入 数据 学 习 正 态 分 布 的 参数 ， 并 把 低 概率 的 点 识别 为 离 群 点 。 

让 我 们 从 一 元 数据 开始 。 将 通过 假定 数据 服从 正 态 分 布 来 检测 离 群 点 。 

例 12. 8 使 用 最 大 似 然 检 测 一 元 离 群 点 。 假 设 某 城市 过 去 10 年 中 7 月 份 的 平均 温度 按 
递增 序 排 列 为 24.0, 28.9, 28.9, 29.0T, 29.1T, 29.1T, 29.2%. 29. 2T 、 
29.3 和 29.4Y 。 假 定 平均 温度 服从 正 态 分 布 ， 由 两 个 参数 决定 : 均值 和 标准 差 o。 
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AY LAE FARR AAR RA RA SR u Mo BUR AAG ST EAR oh BE 
In Lu, o’) = È, fs |(w,0")) =- zrn) 一 Fino? - >) (x; —p)? 


(12.1) 
其 中 , n 是 样本 总 数 ， 在 该 例 中 等 于 10, 
Xt u A o 求 导 并 对 结果 求解 得 到 如 下 最 大 似 然 估计 : 
A == Dx . (12.2) 
E= ly- (12.3) 
n izi 
在 这 个 例子 中 ， 有 
~ 24.0 +28.9 +28.9 +29.0 +29.1 +29.1 +29.2 +29.2 +29.3 +29.4 
j= T = 28.61 





G = ( (24.1 - 28.61)? + (28.9 — 28.61)? + (28.9 - 28.61)? + (29.0 - 28.61)? 
+ (29.1 -28.61) + (29.1 — 28.61)? + (29.2 - 28.61)? + (29.2 - 28.61)? 
+ (29.3 — 28.61)? + (29.4 - 28. 61)?)/10 ~ 2.29 
由 此 ， 有 = /2.29=1.51, 
最 大 偏离 值 为 24. 0 ， 偏 离 估计 的 均值 4.61%C 。 在 正 态 分 布 的 假定 下 ， 区 域 以 +t3o 包 
4.61 


F 99. 7% 的 数据 。 由 于 1 5T =3. 04 >3，24. 0 被 该 正 态 分 布 产生 的 概率 小 于 0.15% ， 因 此 
它 被 识别 为 离 群 点 。 m ° RRA 
例 12. 8 详细 说 明了 一 种 简单 实用 的 离 群 点 检测 方法 。 它 简单 地 Max 
iL T MRA, URE AR 30, Hp o 
是 标准 差 。 cites 
这 种 直截了当 的 统计 学 离 群 点 检测 方法 也 可 以 用 于 可 视 化 。 例 如 ， o1 
金 图 方法 (在 第 2 章 介绍 ) 使 用 五 数 概括 绘制 一 元 输入 数据 〈 图 12.3) : 
最 小 的 非 离 群 点 值 (Min) 、 第 一 个 四 分 位 数 〔Q1) 、 中 位 数 (02) 、 第 三 Min 
个 四 分 位 数 (03) MRKAR (Max), PyR A 2 ama 


(IQR) 定义 为 63 -Ol。 比 01 小 L5x1OR 或 比 03 大 1.5 x1QR 的 任何 对 
象 都 视 为 离 群 点 ， 因 为 01 -1.5 x 10R 和 03 +1.5 x 10R 之 间 的 区 域 包含 图 12.3 使 用 使 图 对 
了 99, 3% 的 对 象 。 其 理由 类 似 于 使 用 3o 作为 正太 分布 的 阔 值 。 群 点 可 视 化 

另 一 种 使 用 正 态 分 布 的 一 元 离 群 点 检测 的 统计 学 方法 是 Grubb 检验 (又 称 为 最 大 标准 葡 
差 检验 ) 。 对 于 数据 集中 的 每 个 对 象 *， 定 义 z 分 数 (z-score) 为 





z = le-z#l (12.4) 
其 中 ,x 是 输入 数据 的 均值 ，s 是 标准 差 。 对 象 x 是 离 群 点 ， 如 果 
ss M1 E(N) ,N-2 (12.5) 





Vn N-2+ tan) N-2 
其 中 ，taam,w-? 是 显著 水 平 a/(2N) 下 的 上 -分 布 的 值 ，w 是 数据 集中 的 对 象 数 。 
2. 多 元 离 群 点 检测 
涉及 两 个 或 多 个 属性 或 变量 的 数据 称 为 多 元 数据 。 许 多 一 元 离 群 点 检测 方法 都 可 以 扩 
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充 ， 用 来 处 理 多 元 数据 。 其 核心 思想 是 把 多 元 离 群 点 检测 任务 转换 成 一 元 离 群 点 检测 问题 。 
这 里 ， 我 们 使 用 两 个 例子 来 解释 这 一 思想 。 

例 12.9 使 用 马 哈 拉 诺 比 斯 距离 检测 多 元 离 群 点 。 对 于 一 个 多 元 数据 集 ， 设 o 为 均值 
向 量 。 对 于 数据 集中 的 对 象 。， 从 0o 到 o 的 马 哈 拉 诺 比 斯 (Mahalanobis) 距离 为 


MDist(0,0) = (0 -0)'S (o - 0) (12.6) 
其 中 5 是 协 方差 矩阵 。 
MDist(o, 0) 是 一 元 变量 ， 于 是 可 以 对 它 进行 Grubb 检验 。 因 此 ， 可 以 按 如 下 方法 对 多 
元 离 群 点 检测 任务 进行 变换 : 


(1) 计算 多 元 数据 集 的 均值 向 量 。 

(2) 对 于 每 个 对 象 。， 计 算 从 。o 到 5 的 马 哈 拉 诺 比 斯 距离 MDist(o, 0). 

(3) 在 变换 后 的 一 元 数据 集 [MDist(o, 0) |o e D| 中 检测 离 群 点 。 

(4) WER MDist(o, 0) 被 确定 为 离 群 点 ， 则 0o 也 被 视 为 离 群 点 。 

第 二 个 例子 使 用 x 统计 量 来 度量 对 象 与 输入 数据 集 均值 之 间 的 距离 。 

例 12. 10 ”使 用 x? 统计 量 的 多 元 离 群 点 检测 。 在 正 态 分 布 的 假定 下 ，x? 统计 量 也 可 以 
用 来 捕获 多 元 离 群 点 。 对 于 对 象 ，X 统计 量 是 


x = > a (12.7) 
其 中 ，o; 是 o 在 第 i 维 上 的 值 ，E, 是 所 有 对 象 在 第 i 维 上 的 均值 ， 而 n 是 维度 。 如 果 对 象 的 
x 统计 量 很 大 ， 则 该 对 象 是 离 群 点 。 E 


3. 使 用 混合 参数 分 布 
如 果 假 定数 据 是 由 正 态 分 布 产 生 的 ， 则 在 许多 情况 下 这 种 假定 很 有 效 。 然 而 ， 当 实际 数 





据 很 复杂 时 ， 这 种 假定 过 于 简单 。 在 这 种 情况 下 ， 假 定数 据 是 被 混合 参数 分 布 产 生 的 。 











例 12. 11 使 用 混合 参数 分 布 检测 多 元 离 群 点 。 考 虑 图 12. 4 中 的 数据 ， 其 中 有 两 个 大 


BC 和 C。 这 里 ， 假 定数 据 由 一 个 正 态 分 布 产生 效果 不 © o 。 
好 。 佑 计 的 均值 落 在 这 两 个 能 之 间 ， 而 不 是 任何 一 个 焦 的 eo ° ° 
内 部 。 这 两 个 簇 之 间 的 对 象 不 可 能 被 检测 为 离 群 点 , 因为 e OC oome, ® 
它们 离 均 信 很 近 。 me o ,Me O 
为 了 克服 这 一 困难 ， 假 定 正常 的 数据 对 象 被 多 个 正 态 op 。 eee o 
分 布 产生 (这 里 是 两 个 )。 也 就 是 说 ， 假 定 两 个 正 态 分 布 ee o ” œ 
O(m, o) FLO: (ja，02)。 对 于 数据 集中 的 任意 对 象 i ee ° ° 
o, 0 被 这 两 个 分 布 产 生 的 概率 为 a e’? . 


Pr(o|@,,0,) = fo,(0) + fo,(0) 

RF, fo, Mfo DIE O 和 O, 的 概率 密度 函数 。 可 以 使 图 12.4 一 个 复杂 的 数据 集 
用 期 望 最 大 化 (EM) 算法 〈 第 11 章 )， 由 该 数据 学 习 参 数 ，o,，s，0;， 就 像 用 混合 模 
型 聚 类 所 做 的 那样 。 每 个 艇 都 用 学 习 得 到 的 正 态 分 布 表 示 。 一 个 对 象 o 被 检测 为 离 群 点 ， 如 
果 它 不 属于 任何 徐 ， 即 它 被 这 两 个 分 布 的 组 合 产生 的 概率 很 低 。 

例 12. 12 ”使 用 多 个 簇 检 测 多 元 离 群 点 。 在 图 12. 4 中 ， 大 部 分 数据 对 象 都 在 簇 C, 或 C， 
中 。 其 他 对 和 象 代表 噪声 ， 均 匀 地 分 布 在 数据 空间 中 。 一 个 小 簇 C; 非常 可 疑 ， 因 为 它 不 靠近 
两 个 主要 的 簇 C 和 Cs 中 的 任何 一 个 。Cs 中 的 对 象 也 将 被 检测 为 离 群 点 。 

注意 ,识别 C; 中 的 点 为 离 群 点 是 困难 的 ， 无 论 假定 给 定 的 数据 集 服从 一 个 正 态 分 布 ， 
还 是 服从 多 个 分 布 的 混合 分 布 。 这 是 因为 由 于 较 高 的 局 部 密度 ，C: 中 对 象 的 概率 比 某 些 噪 
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PMR (如 图 中 的 o) 高。 m 

为 了 处 理 例 12. 12 揭示 的 问题 ， 假 定 正常 的 数据 对 象 由 一 个 正 态 分 布 或 被 一 个 混合 的 正 
态 分 布 产生 ， 而 离 群 点 由 另 一 个 分 布 产 生 。 局 发 式 地 ， 可 以 在 产生 离 群 点 的 分 布 上 加 上 一 些 
约束 。 例 如 ， 如 果 离 群 点 分 布 在 一 个 较 大 的 区 域 中 ， 则 假定 该 分 布 具有 较 大 的 方差 是 合理 
的 。 从 技术 上 讲 ， 可 以 令 wu = ko， 其 中 是 一 个 用 户 指定 参数 ，o 是 产生 正常 数据 对 象 
的 正 态 分 布 的 标准 差 。 同 样 ，EM 算法 可 以 用 来 学 习 这 种 参数 。 


12.3.2 非 参 数 方法 


在 离 群 点 检测 的 非 参 数 方 法 中 , “正常 数据 ”的 模型 从 输入 数据 学 习 ， 而 不 是 假定 一 个 
先 验 。 通 常 ， 非 参数 方法 对 数据 做 较 少 假定 ， 因 而 在 更 多 情况 下 都 可 以 使 用 。 

例 12.13 使 用 直方 图 检测 离 群 点 。AllElectronics 记录 了 每 个 顾客 事务 的 购买 金额 。 
图 12. 5 使 用 直方 图 (参见 第 2 章 和 第 3 
章 ) 按 所 有 事务 的 百分比 图 示 购 买 金 
额 。 例 如 ，60% 事务 的 购买 金额 为 0 ~ 
1000 美元 。 

可 以 使 用 直方 图 作为 非 参 数 统计 模 
型 来 捕获 离 群 点 。 例 如 ， 一 个 购买 金额 
为 7500 美元 的 事务 可 能 被 视 为 离 群 点 ， 
因为 只 有 1 - (60% +20% + 10% + 
6.7% +3.1%) =0.2% 事务 的 购买 量 超 
过 5000 美元 。 另 一 方面 ,购买 量 为 385 ol | 上 一 
美元 的 事务 可 以 看 做 正常 的 ， 因 为 它 落 人 
人 包含 60% 事 务 的 箱 (BCH) 中 。 m 

如 上 例 所 示 ， 直 方 图 是 一 种 频繁 使 MILS 每 个 事务 的 购买 量 的 直方 图 
用 的 非 参 数 统计 模型 ， 可 以 用 来 检测 离 群 点 。 该 过 程 包括 如 下 两 步 : 

步骤 1: 构造 直方 图 。 在 这 一 步 ， 使 用 输入 数据 (训练 数据 ) 构造 一 个 直方 图 。 该 直方 
图 可 以 像 例 12. 13 中 那样 是 一 元 的 ， 或 者 多 元 的 ， 如 果 输 入 数据 是 多 维 的 。 

注意 ， 尽 管 非 参 数 方法 并 不 假定 任何 先 验 统计 模型 ， 但 是 通常 确实 要 求 用 户 提供 参数 ， 
以 便 由 数据 学 习 。 例 如 ， 为 了 构造 一 个 好 的 直方 图 ， 用 户 必须 指定 直方 图 的 类 型 〈 例 如 ， 
等 宽 的 或 等 深 的 ) 和 其 他 参数 (例如 ， 直 方 图 中 的 箱 数 或 每 个 箱 的 大 小 ) 。 与 参数 方法 不 
同 ， 这 些 参数 并 不 指定 数据 分 布 的 类 型 (例如 ， 高 斯 分 布 ) 。 

步骤 2: 检测 离 群 点 。 为 了 确定 一 个 对 象 o 是 否 是 离 群 点 ， 可 以 对 照 直方 图 检查 它 。 在 
最 简单 的 方法 中 ， 如 果 该 对 象 落 人 直方 图 的 一 个 箱 中 ， 则 该 对 象 被 看 做 正常 的 ， 否 则 被 认为 
是 离 群 点 。 

对 于 更 复杂 的 方法 ， 可 以 使 用 直方 图 赋予 每 个 对 象 一 个 离 群 点 得 分 。 在 例 12. 13 中 ， 可 
以 令 对 象 的 离 群 点 得 分 为 该 对 象 落 人 的 箱 的 容积 的 倒数 。 例 如 ， 购 买 量 7500 美元 的 事务 的 


离 群 点 得 分 为 595 = 500， 而 购买 量 为 美元 385 的 事务 的 离 群 点 得 分 为 = 二 = 1. 67。 这 些 得 分 


表明 ， 购 买 量 7500 美元 的 事务 远 比 购 买 量 385 美元 的 事务 更 可 能 是 离 群 点 。 
使 用 直方 图 作为 离 群 点 检测 的 非 参数 模型 的 一 个 缺点 是 ， 很 难 选择 一 个 合适 的 箱 尺 寸 。 
一 方面 ， 如 果 箱 尺寸 太 小 ， 则 许多 正常 对 象 都 会 落 人 空 的 或 稀疏 箱 ， 因 而 被 误 识别 为 离 群 





x 1000 美 元 
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点 。 这 将 导致 很 高 的 假 正 例 率 和 低 精 度 。 另 一 方面 ， 如 果 箱 尺寸 太 大 ， 则 离 群 点 对 象 可 能 渗 
人 某 些 频繁 的 箱 中 ， 因 而 “假扮 ”成 正常 的 。 这 将 导致 很 高 的 假 负 例 率 和 低 召 回 率 。 

为 了 解决 这 些 问 题 ， 可 以 采用 核 密度 估计 来 估计 数据 的 概率 密度 分 布 。 把 每 个 观测 对 象 
看 做 一 个 周围 区 域 中 的 高 概率 密度 指示 子 。 一 个 点 上 的 概率 密度 依赖 于 该 点 到 观测 对 象 的 距 
离 。 使 用 核 函 数 对 样本 点 对 其 邻 域内 的 影响 建 模 。 核 冰 数 天 ( ) 是 一 个 非 负 实数 值 可 积 函 数 ， 
满足 如 下 两 个 条 件 : 

° {Klw du =1, 


。 FIAR u fË, K(-u)=K(u). 
一 个 频繁 使 用 的 核 函 数 是 均值 为 0， 方 差 为 1 的 标准 高 斯 函数 ， 














xx; 1 -ze 
K( 7 ) = 2h (12.8) 
设 x1，…，x。 是 随机 变量 /了 的 独立 的 、 同 分 布 的 样本 。 该 概率 密度 函数 的 核 函数 近似 为 
A = EKG) (12.9) 


HP, KO 是 核 函 数 ; h 是 带宽 ， 充 当 光 滑 参数 。 

一 旦 通过 核 密度 估计 近似 数据 集 的 概率 密度 函数 ， 就 可 以 使 用 估计 的 密度 函数 ] 来 检测 
离 群 点 。 对 于 对 象 。，f(o) 给 出 该 对 象 被 随机 过 程 产生 的 估计 概率 。 如 果 六 o) 大 ， 则 该 对 
象 可 能 是 正常 的 ; FU, o 可 能 是 离 群 点 。 这 人 一步 通常 与 参数 方法 的 对 应 步骤 类 似 。 

总 之 ， 离 群 点 检测 的 统计 学 方法 由 数据 学 习 模 型 ， 以 区 别 正常 的 数据 对 象 和 离 群 点 。 使 
用 统计 学 方法 的 一 个 优点 是 ， 离 群 点 检测 可 以 是 统计 上 无 可 非议 的 。 当 然 ， 仅 当 对 数据 所 做 
的 统计 假定 满足 实际 约束 时 才 为 真 。 

高 维 数据 的 数据 分 布 常 常 是 复杂 的 ， 并 且 很 难 完全 理解 。 因 此 ， 在 高 维 数据 上 ， 离 群 点 
检测 的 统计 学 方法 仍然 是 一 个 大 难题 。 高 维 数据 的 离 群 点 检测 将 在 12. 8 节 进 一 步 讨论 。 

统计 学 方法 的 计算 开销 依赖 于 模型 。 在 使 用 简单 的 参数 模型 (如 高 斯 模型 》 时 ， 拟 合 
参数 通常 需要 线性 时 间 。 当 使 用 更 复杂 的 模型 时 〈 如 混合 模型 ， 那 里 学 习 中 使 用 EM 算法 ) ， 
允 近 最 佳 参数 值 通常 需要 多 次 迄 代 。 然 而 ， 每 次 迭代 ， 关 于 数据 集 的 大 小 都 是 线性 的 。 对 于 
核 密度 估计 ， 模 型 学 习 的 开销 可 能 高 达 二 次 。 一 旦 模型 学 习 成 功 ， 每 个 对 象 的 离 群 点 检测 的 
开销 通常 都 很 小 。 


12.4 基于 邻近 性 的 方法 

给 定 特征 空间 中 的 对 象 集 ， 可 以 使 用 距离 度量 来 量化 对 象 之 间 的 相似 性 。 直 观 地 ， 远 离 
其 他 对 象 的 对 象 可 以 被 视 为 离 群 点。 基于 邻近 性 的 方法 假定 : 离 群 点 对 象 与 它 最 近邻 的 邻近 
性 显著 偏离 数据 集中 其 他 对 象 与 它们 近邻 之 间 的 邻近 性 。 

有 两 种 类 型 的 基于 邻近 性 的 离 群 点 检测 方法 : 基于 距离 的 和 基于 密度 的 方法 。 基 于 距离 
的 离 群 点 检测 方法 考虑 对 象 给 定 半径 的 邻 域 。 一 个 对 象 被 认为 是 离 群 点 ， 如 果 它 的 邻 域内 没 
有 足够 多 的 其 他 点 。 基 于 密度 的 离 群 点 检测 方法 考察 对 象 和 它 近 邻 的 密度 。 这 里 ， 一 个 对 象 
被 识别 为 离 群 点 ， 如 果 它 的 密度 相对 于 它 的 近邻 低 得 多 。 

让 我 们 从 基于 距离 的 离 群 点 开始 。 


12.4.1 基于 距离 的 离 群 点 检测 和 嵌 套 循环 方法 
一 种 代表 性 的 基于 邻近 性 的 离 群 点 检测 方法 使 用 基于 距离 的 离 群 点 概念 。 对 于 待 分 析 的 
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数据 对 象 集 D， 用 户 可 以 指定 一 个 距离 阐 值 + 来 定义 对 象 的 合理 邻 域 。 对 于 每 个 对 象 。， 可 
以 考察 o 的 r- 邻 域 中 的 其 他 对 象 的 个 数 。 如 果 D 中 大 多 数 对 象 都 远离 。， 即 都 不 在 o 的 r- 
邻 域 中 ， 则 o 可 以 被 视 为 一 个 离 群 点 。 

令 r(rz0) EBRE, w(O<a<1) 是 分 数 (fraction) BA, WH o 是 一 个 DB(r，T) 
离 群 点 ， 如 果 





Jio’ |dist(o,0') <r} | = 
ID] ST (12. 10) 
其 中 dist( +, +) 是 距离 度量 。 
同样 ， 可 以 通过 检查 o 与 它 的 第 上 个 最 近邻 w 之 间 的 距离 来 确定 对 象 o。 是 否 是 DB(r， T) ~ 
ABM, Ke k=[a || Dill. Ro 是 离 群 点 ， 如 果 disis(o，os) > r， 因 为 在 这 种 情况 下 ， 
在 o 的 >- 邻 域 中 ， 除 o 之 外 少 于 上 个 对 象 。 
“如 何 计算 DB(r，T) - 离 群 点 ?” 一 种 简单 的 方法 是 使 用 身 套 循环 ， 检 查 每 个 对 象 的 
一 邻 域 ， 如 图 12. 6 所 示 。 对 于 每 个 对 象 o， 
(<i<n), HE o 与 其 他 对 象 之 间 的 距 | BS! BPRRBM AE. 
离 ， 统 计 o; 的 >- 邻 域 中 其 他 对 象 的 个 数 。 e RADo o), Mfr (720) fin (O<n <1) « 
一 旦 在 到 0; 的 距离 内 找到 mn 个 其 他 对 | 输出 D 中 的 DB (xx) - 离 群 点 。 
象 ， 则 内 循环 可 以 立即 中 止 ， 因 为 o; 已 经 | 方法 ; 
违反 (12.10) 式 ， 因 而 不 是 DB(r, T) 一 for i=l to n do 
离 群 点 。 另 一 方面 ， 如 果 对 于 o, ARE count 
成 ， 则 这 意味 在 半径 7 内 ，o; 的 近邻 数 少 于 for j=1 ton do 











Ten, 因而 是 DB(r， a) - 离 群 点 。 if i*j and dist (0,, 0,) <r then 
HERREDER O(n?) counte—count+] 

令 人 吃惊 地 ， 实 际 的 CPU 运行 时 间 与 数据 if count=z + n then 

集 的 大 小 常常 是 线性 的 。 当 数据 集中 离 群 点 ial D - 离 群 点 ; 





的 个 数 很 少时 (在 大 部 分 时 候 本 应 如 此 )， 

对 于 大 部 分 非 离 群 点 对 象 ， 内 循环 都 提前 结 | ad for 

束 。 相 应 地 ， 数 据 集 只 有 一 小 部 分 被 考察 。 print oj{ 根 据 〈12.10) 式 ，o 是 D58 Cr, n) - 离 群 点 } 
当 数 据 集 很 大 时 ， 整 个 对 象 集 不 可 能 | ena ror; 

BEER HT, WEAN E R R 

大 。 假 设 主 存 有 普 页 用 于 挖掘 。 不 是 逐个 ”图 12.6 DB(r, q) - 离 群 点 检测 的 柑 套 循环 算法 

对 象 执行 内 循环 ， 在 这 种 情况 下 ， 外 循环 使 用 m -1 页 存放 尽 可 能 多 的 对 象 ， 而 使 用 剩 下 

的 1 页 运行 内 循环 。 直 到 m -1 页 中 的 对 象 都 被 识别 为 非 离 群 点 时 (这 非常 可 能 发 生 )， 


内 循环 才 中 止 。 相 应 地 ， 算 法 的 10 开销 大 约 为 0 ( (Z) ) ,其 中 65 是 一 页 可 以 存放 的 


对 象 数 。 

徐 套 循环 的 开销 主要 来 自 两 个 方面 。 第 一 ， 为 了 检查 一 个 对 象 是 否 是 离 群 点 ， 纵 套 循环 
方法 要 对 整个 数据 集 检 查 该 对 象 。 为 了 改进 性 能 ， 需 要 探索 如 何 由 靠近 对 象 的 近邻 来 确定 对 
象 的 离 群 性 。 第 二 ， 垦 套 循环 方法 逐个 检查 每 个 对 象 。 为 了 改进 性 能 ， 应 该 尝试 根据 对 象 间 
的 邻近 性 把 它们 分 组 ， 并 且 在 大 部 分 时 候 逐 组 检查 对 象 的 离 群 性 。12. 4. 2 节 介绍 如 何 实现 
以 上 思想 。 


end if 
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12.4.2 ”基于 网 格 的 方法 
CELL 是 一 种 基于 距离 的 离 群 点 检测 的 基于 网 格 的 方法 。 在 这 种 方法 中 ， 数 据 空间 被 划 


分 成 多 维 网 格 ， 其 中 每 个 单元 是 一 个 其 对 角 线 长 度 为 了 的 超 立方 体 ， 其 中 是 一 个 距离 阔 值 


So REZ, WRA ! 维 ， 则 单元 的 每 个 边 长 为 Te 


例如 ， 考 虑 一 个 二 维 数据 集 。 图 12. 7 显示 了 网 格 的 一 部 分 。 单元 的 每 个 边 长 为 =。 


考虑 图 12.7 中 的 单元 C。 单 元 C 的 近邻 单元 可 以 划分 
成 两 组 。 直 接 与 C 相 邻 的 单元 构成 第 1 层 单元 (图 中 用 
“1” 标 示 ) ， 而 在 任意 方向 远离 C 一 个 或 两 个 单元 的 单元 
构成 第 2 层 单元 (图 中 用 “2” 标 记 ) 。 这 两 层 单元 具有 如 
下 性 质 : 
。 第 1 层 单元 的 性 质 : Ae C 的 任意 点 x 和 第 1 层 中 
的 任意 点 了 ， 有 dist(x, y) <r. 
。 第 2 层 单元 的 性 质 : HE C 的 任意 点 x 和 任意 点 》， 
使 得 dist (x, y) >r, My 在 一 个 第 2 层 单元 中 。 
设 a 是 单元 C 中 的 对 象 数 ，6b, 是 第 1 层 单元 中 的 对 象 
总 数 ，b, 是 第 2 层 单元 中 的 对 象 总 数 。 可 以 使 用 如 下 规则 : 图 12.7 CELL 方法 的 网 格 
。 层 一 1 单元 前 枝 规 则 : 根据 第 1 层 单元 的 性 质 ， 如 果 a+ > [rmn], W C 中 的 每 个 
对 象 o 都 不 是 DB(r, 7) - 离 群 点 ， 因 为 C 和 第 1 层 单元 中 的 所 有 对 象 都 在 o 的 >- 
邻 域 中 ， 并 且 至 少 有 | mn | 个 这 样 的 近邻 。 
。 层 -2 单 元 剪 枝 规 则 : 根据 第 2 ALERE, WMR a+b +b, <| mn] +1, WC 
的 所 有 对 象 都 是 DB(r, m) - 离 群 点 ， 因 为 它们 的 +- 邻 域 中 的 其 他 对 象 都 少 于 
[an| +. 
使 用 以 上 两 个 规则 ，CELL 方法 使 用 网 格 把 数据 分 组 一 一 在 一 个 单元 中 的 所 有 对 象形 成 
一 组 。 对 于 满足 以 上 规则 之 一 的 组 ， 可 以 确定 单元 中 的 所 有 对 象 都 是 离 群 点 或 者 都 不 是 离 群 
点 ， 因 而 不 必 逐 个 检查 这 些 对 象 。 此 外 ， 为 了 使 用 以 上 两 个 规则 ， 只 需要 检查 有 限 多 个 邻近 
目标 单元 的 单元 ， 而 不 是 整个 数据 集 。 
使 用 以 上 两 个 规则 ， 许 多 对 象 都 可 以 确定 为 非 离 群 点 或 离 群 点 。 只 需要 检查 不 能 使 用 以 
上 两 个 规则 剪 枝 的 那些 对 象 。 即 使 对 于 这 样 的 对 象 ， 也 只 需要 计算 o 与 o 的 第 2 层 中 的 对 
象 之 间 的 距离 。 这 是 因为 第 1 层 中 的 所 有 对 象 到 o 的 距离 最 多 为 >， 并且 不 在 第 1 层 或 第 2 
层 中 的 对 象 到 o MRAM >， 因 而 不 可 能 在 o K r- 邻 域 中 。 
当 数 据 集 很 大 ， 以 至 于 大 部 分 数据 都 存放 中 磁盘 上 时 ，CELL 方法 可 能 导致 许多 对 磁盘 
的 随机 访问 ， 这 开销 很 大 。 已 经 提出 了 另 一 种 方法 ， 只 使 用 很 少 的 主 存 (大 约 为 数据 集 的 
1% ) ， 通 过 3 次 数据 集 扫描 ， 挖 所 所 有 的 离 群 点 。 首 先 使 用 有 放 回 抽样 ， 从 给 定数 据 集 D 
创建 一 个 样本 So S 中 的 每 个 对 象 被 看 做 一 个 分 区 的 形 心 。 根 据 距 离 ， 把 D 中 的 对 象 分 配 到 
各 分 区 中 。 以 上 步 又 在 一 次 扫描 D 完成 。 候 选 离 群 点 在 第 二 次 扫描 D 识别 。 第 三 次 扫描 后 ， 
找 出 所 有 DB(r, n) - 离 群 点 。 
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12.4.3 ”基于 密度 的 离 群 点 检测 

基于 距离 的 离 群 点 ， 如 DB(r，T) - 离 群 点 ， 只 是 一 种 类 型 的 离 群 点 。 尤 其 是 ， 基 于 距 
离 的 离 群 点 检测 从 全 局 考虑 数据 集 。 由 于 如 下 两 个 原因 ， 这 种 离 群 点 被 看 做 “全 局 离 群 
A”: 

° 例如 ， 一 个 DB(r，T) - 离 群 点 至 少 远离 〈 用 参数 > 定量 ) 数据 集中 (1 -T) x 

100% 的 对 象 。 换 言 之 ， 这 种 离 群 点 远离 数据 的 大 多 数 。 

。 为 了 检测 基于 距离 的 离 群 点 ， 需 要 两 个 距离 参数 r+ Mn, CATENA RANZ. 

现实 世界 的 许多 数据 集 都 呈现 更 复杂 的 结构 ， 那 里 对 象 可 能 关于 其 局 部 邻 域 ， 而 不 是 关 
于 整个 数据 分 布 而 被 视 为 离 群 点 。 看 一 个 例子 。 

例 12. 14 ”基于 局 部 邻近 性 的 离 群 点 。 考 虑 图 12. 8 PHAN. ABER: C 是 稠密 
的 ，C; 是 稀 朴 的 。 对 象 0; 可 以 被 检测 为 基于 路 离 的 离 群 点 ， 因 为 它 远离 数据 集 的 大 多 数 。 

HME, ZENZ o, 和 o。 它们 是 离 群 点 吗 ? 一 方 oC 
H, o, 和 o: 到 稠密 徐 C, 的 距离 小 于 CG 簇 中 对 象 到 它 的 。 ” 。 . © wis 
最 近邻 的 平均 距离 。 因 此 ，o, 和 o: 都 不 是 基于 距离 的 离 。 © & è o “0 


群 点 。 事实 上 ， 如 果 把 o) F o, 分 类 为 DB(r, m) - 离 群 ° e °. o 。 ° o, 
A, WAAR C 中 的 所 有 对 象 都 分 类 为 DBB(r,，T) - e 。° o° ° 
离 群 点 。 


12.8 全 局 后 AY 后 
另 一 方面 ， 当 局 部 地 考虑 灸 C 时 ，o Ho, 都 可 以 © 离 群 点 和 局 部 高 群 点 


视 为 离 群 点 ， 因 为 o Flo, 都 显著 地 偏离 C, 中 的 对 象 。 此 外 ，o Alo, 也 远离 C, 中 的 对 象 。 

总 之 ， 基 于 距离 的 离 群 点 检测 方法 不 能 捕获 像 o, 和 o, 这 样 的 局 部 离 群 点 。 注 意 ，o4 与 
它 最 近邻 之 间 的 距 高 远大 于 0o, 与 它 最 近邻 之 间 的 距离 。 然 而 ， 因 为 os EARTE C ( 它 是 
MAR) 的 ， 因 而 不 认为 o4 是 局 部 离 群 点 。 E 

“如 何 确切 地 定义 例 12. 14 所 示 的 局 部 离 群 点 ?” 这 里 ， 关 键 的 思想 是 ， 需 要 把 对 象 周 
围 的 密度 与 对 象 邻 域 周围 的 密度 进行 比较 。 基 于 密度 的 离 群 点 检测 方法 的 基本 假定 是 : 非 离 
群 点 对 象 周围 的 密度 与 其 邻 域 周围 的 密度 类 似 ， 而 离 群 点 对 象 周围 的 密度 显著 不 同 于 其 邻 域 
周围 的 密度 。 

根据 以 上 假定 ， 基 于 密度 的 离 群 点 检测 方法 使 用 对 象 和 其 近邻 的 相对 密度 指示 对 象 是 离 
群 点 的 程度 。 

现在 ， 考 虑 给 定 对 象 集 D， 如 何 度量 对 象 o 的 相对 密度 。 对 象 o H) k -ERY dist, 
(o) ， 是 o 与 男 一 个 对 象 p eD 之 间 的 距离 dist(o，P) ， 使 得 : 
© 至 少 有 个 对 和 象 o'eD -1ol ,使 得 disis(o, 0') <dist (0, p)。 
EDA k-1 个 对 象 o”eD -1o|， 使 得 dist(o, o") <dist (0, p)» 

换言之 ，dist,(o) 是 0 与 其 第 个 最 近邻 之 间 的 距离 。 因 此 , o 的 -距离 邻 域 包 含 其 

Fj o 的 距离 不 大 于 dist,(0) 的 所 有 对 象 ， 记 为 
N,(0) = fo'|o’ e D,dist(o,0’) < dist,(0)! (12. 11) 
tE, Mo) 中 的 对 象 可 能 超过 个， 因为 可 能 会 有 多 个 对 象 到 。o 的 距离 相等 。 

可 以 使 用 Ni(o) 中 对 象 到 o 的 平均 距离 作为 o 的 局 部 密度 的 度量 。 然 而 ， 这 种 简单 的 
度量 有 一 个 问题 : 如 果 o 有 一 个 非常 近 的 近邻 o'， 使 得 dist(o, o') 非常 小 ， 则 距离 度量 的 
统计 波动 可 能 出 乎 意料 地 高 。 为 了 解决 这 一 问题 ， 可 以 通过 加 上 光滑 效果 ， 转 换 成 如 下 可 达 
距离 。 
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对 于 两 个 对 象 Filo’, WẸ dist(o, 0’) >dist, (0), WA o' 到。 的 可 达 距 离 是 dist(o，o0')， 
否则 是 dist,(0) 5 BI 
reachdist,(o «—0') = max|dist,(o) ,dist(a,0') | (12. 12) 
这 里 , 大 是 用 户 指 定 的 参数 ， 用 于 控制 光滑 效果 。 本 质 上 , 上 指定 需要 考察 以 便 确定 对 象 密 
度 的 最 小 邻 域 。 重 要 的 是 ， 可 达 距 离 不 是 对 称 的 ， 即 一 般 而 言 ，reachdisti (0*-0') # ( reach- 
dist, (0'<—0) , 
现在 ， 把 对 象 o 的 局 部 可 达 密 度 定 义 为 
| V.Co) || 
irdy(o) = > reachdist,(0' —o) (12. 13) 


o' EN,(o) 


这 里 为 离 群 点 检测 定义 的 密度 度量 与 基于 密度 的 聚 类 (12.5 节 ) 定义 的 密度 度量 之 间 
存在 重要 区 别 。 在 基于 密度 的 聚 类 中 ， 为 了 确定 一 个 对 象 是 否 可 以 看 做 基于 密度 的 簇 的 核心 
对 象 ， 使 用 两 个 参数 : 用 于 指定 邻 域 的 区 域 的 半径 参数 r 和 邻 域 中 的 最 少 点 数 。 这 两 个 参数 
都 是 全 局 的 ， 用 于 所 有 对 象 。 相 比 之 下 ， 受 相对 密度 是 找 出 局 部 离 群 点 的 关键 这 一 观察 的 启 
发 ,使 用 参数 确定 邻 域 ， 但 不 必 指 定 邻 域 中 对 象 的 最 小 数量 作为 密度 的 一 个 条 件 ， 而 是 计 
算 对 象 局 部 可 达 密 度 ， 并 把 它 与 近邻 比较 ， 确 定 该 对 象 被 视 为 离 群 点 的 程度 。 

尤其 是 ， 定 义 o 的 局 部 离 群 点 因子 (local outlier factor) 为 








Ird,(0') 
oo Ird,(o 
LOF (0) 0) = >» Ird,(0') > reachdist,(o'«—o) (12.14) 
| N,Co) || o' EM(0) o'EN(0) 


换言之 ， 局 部 离 群 点 因子 是 o 的 可 达 密 度 与 o 的 上 -最 近邻 的 可 达 密 度 之 比 的 平均 值 。 对 象 
o 的 局 部 可 达 密 度 越 低 〈 即 项 sp 2y Cachdist,(0' —0) 越 小 )， FH o 的 大 -最 近邻 的 局 部 可 


'e 


达 密 度 越 高 ，LOF 值 越 高 。 这 恰好 捕获 了 与 其 -最 近邻 的 局 部 密度 相 比 ， 局 部 离 群 点 的 局 
部 密度 相对 较 低 。 

局 部 离 群 点 因子 具有 一 些 很 好 的 性 质 。 首 先 ， 对 于 一 个 深 藏 在 一 一 致 秘 内 部 的 对 象 ， 如 
图 12. 8 C, 中 心 的 那些 点 ， 局 部 离 群 点 因子 接近 于 1。 这 一 性 质 确保 ， 无 论 簇 是 稠密 的 
还 是 稀 玖 的 ， 秘 内 的 对 象 不 会 错误 地 标记 为 离 群 点 。 

其 次 ， 对 于 一 个 对 象 。，LOF(o) 的 含义 容易 理解 。 例 如 ， 考 虑 图 12.9 中 的 对 象 。 对 
于 对 象 o, $ 


direct,,,,(0) = min] reachdist,(0' 0) lo’ e N,(0)} (12.15) 
为 从 o MER k- ei ue 类 似 地 ， 可 以 定义 
direct (OoO) = max{reachdist,(0' —0) |o' e N,(o)} (12. 16) 


还 考虑 o 的 下 -最 近邻 。 令 
indirect,,,,(0) = min{reachdist,(0’ —0) |o' e N,(o)and o” e No) (12.17) 
并 且 
indirect,,,,(@) = max|reachdist,(o0'<0)|0' e N,(o0)and o" e N,(0')} (12.18) 
因此 ， 可 以 证 明 LOF(o) ZRF 
direct,,,,(0) direct jn, (0 
indirect,,,, (0) < LOF(o) < indirect „i o 


这 一 结果 清楚 地 表明 LOF 捕获 了 对 象 的 相对 密度 。 


(12. 19) 
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12.5 基于 聚 类 的 方法 


离 群 点 概念 与 灸 概念 高 度 相 关 。 基 于 聚 类 的 方法 通过 考察 对 象 与 饶 之 间 的 关系 检测 离 群 
点 。 直 观 地 ， 离 群 点 是 一 个 对 象 ， 它 属于 小 的 偏远 能， 或 不 属于 任何 能。 

这 导致 三 种 基于 聚 类 的 离 群 点 检测 的 一 般 方法 。 考 虑 一 个 对 象 。 

。 BRATS? 如 果 不 ， 则 它 被 识别 为 离 群 点 。 

。 该 对 象 与 最 近 的 艇 之 间 的 距离 很 远 吗 ? 如 果 是 ， 则 它 是 离 群 点 。 

© 该 对 象 是 小 位 或 稀 芍 复 的 一 部 分 吗 ? 如 果 是 ， 则 该 簇 中 的 所 有 对 象 都 是 离 群 点 。 


让 我 们 对 每 种 方法 考察 一 个 例子 。 


图 12.9 LOF(o) 的 性 质 


例 12.15 把 离 群 点 检测 为 不 属于 任何 镁 的 对 象 。 群 居 动 物 ( 例如， 山羊 和 鹿 ) 成 群 
居住 和 迁移 。 使 用 离 群 点 检测 ， 可 以 把 离 群 点 看 做 不 属于 任何 畜 群 的 动物 。 这 种 动物 或 者 是 


走失 的 ， 或 者 是 受伤 的 。 


在 图 12. 10 中 ， 每 个 点 都 代表 一 个 生活 在 冀 群 中 的 动物 。 使 用 基于 密度 的 聚 类 方法 ， 如 
DBSCAN， 我 们 注意 到 黑色 点 都 属于 和 能。 白色 点 4 不 属于 任何 人 能， 因而 被 宣布 为 离 群 点 。 m 

第 二 种 基于 聚 类 的 离 群 点 检测 方法 考虑 对 象 与 距 它 最 近 的 能 之 间 的 距离 。 如 果 该 距离 很 
大 ， 则 该 对 象 关于 该 簇 很 可 能 是 离 群 点 。 因 此 ， 这 种 方法 检测 关于 簇 的 个 体 离 群 点 。 

例 12. 16 ”使 用 到 最 近 徐 的 距离 的 基于 聚 类 的 离 群 点 检测 。 使 用 下- 均值 聚 类 方法 ， 可 
以 把 图 12. 11 中 的 数据 点 划分 成 3 个 秘 ， 如 图 中 不 同 符号 所 示 。 每 个 篮 的 中 心 用 “+ ” 


标记 。 


图 12. 10 对 象 a RARA, AA 


Oa 


它 不 属于 任何 能 
对 于 每 个 对 象 "， 都 可 以 根据 该 对 象 与 最 近 艇 中 心 的 距离 ， 赋 予 该 对 象 一 个 离 群 点 得 


o> 
5 o W? 
p 
ce 
ee 
bo o ec 
+D 


E 12.11 高 群 点 (a, b, c) 都 (关于 簇 中心 ) 
远离 距 它们 最 近 的 复 
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分 。 假 设 到 6o 的 最 近 中 心 为 c ， 则 o 与 c, 之 间 的 距离 为 dist(o, c), c, 与 指派 到 c, 的 对 象 
之 间 的 平均 距 商 为 上 .。 比 率 SEE 0 和 度量 din(o, 0) 与 平均 什 的 差异 程度 。 在 图 12.11 
中 ， 点 a、& 和 < 都 相对 远离 它们 的 对 应 中 心 ， 因 而 被 怀疑 为 离 群 点 。 四 

这 种 方法 也 能 用 于 入侵 检测 ， 如 例 12. 17 所 示 。 

例 12. 17 ”通过 基于 来 类 的 高 群 点 检测 进行 入 侵 检测 。 通 过 考虑 训练 数据 集中 的 数据 点 
与 马 之 间 的 相似 性 ， 已 经 开发 了 一 种 提升 方法 来 检测 TCP 连接 数据 中 的 人 侵 。 这 种 方法 包 
括 如 下 三 步 。 

(1) 使 用 训练 数据 集 找 出 正常 数据 的 模式 。 更 明确 地 说 ，TCP 连接 数据 根据 日 期 分 段 。 
在 每 个 段 中 发 现 频繁 模式 。 分 段 中 处 于 多 数 的 频繁 模式 被 视 为 正常 数据 的 模式 ， 并 称 为 
“基本 连接 ”。 

(2) 训练 数据 中 包含 基本 连接 的 连接 被 看 做 无 攻击 的 。 这 些 连接 被 聚 类 成 能 。 

(3) 把 原 数 据 集中 的 数据 点 与 上 一 步 得 到 的 簇 进行 比较 。 认 为 是 关于 这 些 秘 的 离 群 点 
的 任何 点 都 被 看 做 可 能 的 攻击 。 m 

注意 ， 迄 今 为 止 我 们 看 到 的 每 种 方法 都 只 检测 个 体 离 群 点 ， 因 为 它们 一 次 把 一 个 对 象 与 
数据 集中 的 饶 进 行 比较 。 然 而 ， 在 大 型 数据 集中 ，_ 些 离 群 点 可 能 是 类 似 的 ， 并 且 形 成 一 个 
小 秘 。 例 如 ， 在 入侵 检测 中 ， 使 用 相同 手段 攻击 系统 的 黑客 可 能 形成 个 秘 。 迄 今 为 止 所 讨 
论 的 方法 可 能 被 这 种 离 群 点 所 欺骗 。 

为 了 解决 这 一 问题 ， 第 三 种 基于 聚 类 的 离 群 点 检测 方法 识别 小 人 或 稀 琉 能 ， 并 宣告 
能 中 的 对 象 也 是 离 群 点 。 这 种 方法 的 一 个 例子 是 Find BLOF 算法 ， 其 方法 如 下 。 

(1) 找 出 数据 集中 的 秘 ， 并 把 它们 按 大 小 降序 排列 。 该 算法 假定 大 部 分 数据 点 都 不 是 
离 群 点 。 它 使 用 一 个 参数 a(0<a<1) 来 区 别 大 灸 和 小 化 。 任 何 至 少 包 含 数据 集中 百 分 之 
(例如 ，a =90% ) 数据 点 的 徐 都 被 视 为 “大 秘 " ， 而 其 余 的 锐 被 看 做 “小 秘 ”。 

(2) 对 于 每 个 数据 点 赋予 基 于 将 的 局 部 离 群 点 因子 (CBLOF) 。 对 于 属于 大 簇 的 点 ， 它 
的 CBLOF 是 狂 的 大 小 和 该 点 与 秘 的 相似 性 的 乘积 。 对 于 属于 小 簇 的 点 ， 它 的 CBLOF F 
的 大 小 和 该 点 与 最 近 的 大 钻 的 相似 性 的 乘积 计算 。 

CBLOF 用 统计 学 方法 定义 点 和 簇 之 间 的 相似 性 ， 代 表 点 属于 艇 的 概率 。 该 值 越 大 ， 点 
与 化 越 相似 。CBLOF 值 可 以 检测 远离 任何 包 的 离 群 点 。 此 外 ， 远 离 任何 大 簇 的 小 簇 被 看 做 
由 离 群 点 组 成 。 具 有 最 低 CBLOF 值 的 点 被 怀疑 是 高 群 点 。 

例 12. 18 “检测 小 簇 中 的 离 群 点 。 图 12. 12 中 的 数据 点 形成 3 ME: KEC FIC, — 


AINE C;。 对 象 。 不 属于 任何 簇 。 500 e 
使 用 CBLOF, FindCBLOF 可 以 识别 o FIRE CG 中 的 点 为 离 COCO e° 

群 点 。 对 于 o， 最 近 的 大 能 是 C, CBLOF 简单 地 为 0 与 C, COQ) G» 

相似 性 ， 该 值 很 小 。 对 于 C, PAA, BOM ARE CG. RE O c 

EC, 中 有 3 个 点 ,但 是 这 些 点 与 饼 C, 中 的 点 的 相似 性 都 很 O_O 

低 , EIG | =3 很 小 ， 因 此 C 中 点 的 CBLOF 得 分 都 很 小 。 四 cœ o% o 
如 果 在 检测 离 群 点 前 必须 先 找 出 能 ， 则 基于 聚 类 的 方法 可  '@ o 8 co 


能 导致 很 大 的 计算 开销 。 已 经 开发 了 一 些 技术 来 提高 有 效 性 。 
固定 宽度 聚 类 (fixed-width clustering) 是 一 种 线性 时 间 技 术 ， 图 12. 12 小 簇 中 的 离 群 点 

用 于 一 些 离 群 点 检测 方法 。 其 思想 是 简单 而 有 效 的 。 一 个 点 被 指派 到 一 个 簇 ， 如 果 从 该 点 到 
该 秘 中 心 的 距离 在 预先 定义 的 距离 阐 值 和 内。 如果 一 个 点 不 能 指派 到 任何 已 存在 的 徐 ， 则 创建 
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DH. TERE ARIE, ERRE A eh ed 

基于 聚 类 的 离 群 点 检测 方法 具有 如 下 优点 。 首 先 ， 它 们 可 以 检测 离 群 点 ， 而 不 要 求 数据 
是 有 标号 的 ， 即 它们 以 无 监督 方式 检测 。 它 们 对 许多 类 型 的 数据 都 有 效 。 簇 可 以 看 做 数据 的 
概括 。 一 旦 得 到 徐 ， 基 于 聚 类 的 方法 只 需要 把 对 象 与 秘 进 行 比较 ， 以 确定 该 对 象 是 否 是 离 群 
点 。 这 一 过 程 通常 很 快 ， 因 为 与 对 象 总 数 相 比 ， 艇 的 个 数 通常 很 小 。 

基于 聚 类 的 方法 的 缺点 是 ， 它 的 有 效 性 高 度 依赖 于 所 使 用 的 聚 类 方法 。 这 些 方法 对 于 离 
群 点 检测 而 言 可 能 不 是 最 优 的 。 对 于 大 型 数据 集 ， 聚 类 方法 通常 开销 很 大 ， 这 可 能 成 为 一 个 
AR 


12.6 基于 分 类 的 方法 

如 果 训 练 数 据 具 有 类 标号 ， 则 离 群 点 检测 可 以 看 做 分 类 问题 。 基 于 分 类 的 离 群 点 检测 方 
法 的 一 般 思想 是 ， 训 练 一 个 可 以 区 分 “正常 ”数据 和 离 群 点 的 分 类 模型 。 

考虑 一 个 训练 数据 集 ， 它 包含 一 些 标记 为 “正常 ”， 而 其 他 标记 为 “ 离 群 点 ”的 样本 。 
于 是 ， 可 以 在 该 训练 集 上 构建 一 个 分 类 器 。 可 以 使 用 任意 分 类 算法 〈 第 8 章 和 第 9 章 ) 。 然 
而 ， 这 种 方法 对 于 离 群 点 检测 效果 不 好 ， 因 为 训练 集 是 高 度 有 偏 的 。 也 就 是 说 ， 正 常 样本 的 
数量 可 能 远 远 超过 离 群 点 样本 的 数量 。 这 种 不 平衡 (其 中 离 群 点 样本 的 数量 可 能 不 足 ) 可 
能 使 得 我 们 很 难 构 建 一 个 准确 的 分 类 器 。 例 如 ， 考 虑 系统 的 人 侵 检测 。 因 为 大 部 分 系统 访问 
都 是 正常 的 ， 因 此 很 容易 得 到 正常 事件 的 一 个 好 的 表示 。 然 而 ， 由 于 新 的 意外 人 侵 不 时 出 
现 ， 因 此 枚 举 所 有 可 能 的 人 侵 是 不 切实 际 的 。 这 样 ， 只 有 离 群 点 〈 或 人 侵 ) 样本 的 一 个 不 
充分 的 表示 。 

为 了 解决 这 一 难题 ， 基 于 分 类 的 离 群 点 检测 方法 通常 使 用 一 类 模型 〈one- class model) 。 
也 就 是 说 ， 构 建 一 个 仅 描 述 正常 类 的 分 类 器 。 不 属于 正常 类 的 任何 样本 都 被 视 为 离 群 点 。 

例 12. 19 使 用 一 类 模型 检测 离 群 点 。 考 虑 图 12. 13 所 示 的 训练 集 ， 其 中 白 点 是 标记 为 
“正常 ”的 样本 ， 而 黑 点 是 标记 为 “ 离 群 点 ” 
的 样本 。 为 了 构建 一 个 离 群 点 检测 模型 ， 可 以 
使 用 如 SVM (第 9 章 ) 这 样 的 分 类 方法 来 学 习 
正常 类 的 决策 边界 。 给 定 一 个 新 对 象 ， 如 果 该 
对 象 在 正常 类 的 决策 边界 内 ， 则 它 被 视 为 正常 
的 ; 如 果 该 对 象 在 该 决策 边界 外 ， 则 它 被 宣布 
为 离 群 点 。 

仅 使 用 正常 类 的 模型 检测 离 群 点 的 优点 是 ， 
该 模型 可 以 检测 可 能 不 靠近 训练 集中 的 任何 离 
群 点 的 新 离 群 点 。 只 要 这 种 离 群 点 落 在 正常 类 图 12. 13 为 正常 类 学 习 一 个 模型 
的 决策 边界 外 ， 就 会 出 现 这 种 情况 。 a 

使 用 正常 类 的 决策 边界 的 思想 可 以 推广 处 理 正常 对 象 可 能 属于 多 个 类 的 情况 ， 如 模糊 聚 
类 (第 11 章 )。 例 如 ，AllEletronics 接收 退回 商品 。 顾 客 可 能 因为 多 种 原因 (对 应 于 类 的 类 
别 ) 而 退回 商品 ， 如 “产品 设计 缺陷 ”和 “产品 运输 期 间 损 坏 "”。 每 一 类 都 是 正常 的 。 为 了 
检测 离 群 点 实例 ，AlEletronics 可 以 为 每 个 正常 类 学 习 一 个 模型 。 为 了 确定 一 个 实例 是 否 是 
离 群 点 ， 可 以 在 该 实例 上 运行 每 个 模型 。 如 果 该 实例 不 拟 合 任何 模型 ， 则 它 被 宣布 为 离 
群 点 。 

基于 分 类 的 方法 和 基于 聚 类 的 方法 可 以 联合 使 用 ， 以 半 监 督 的 方式 检测 离 群 点 。 
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例 12. 20 通过 半 监 督学 习 检测 离 群 点 。 考 虑 图 12. 14 ， 其 中 对 象 被 标记 为 “正常 ”或 
“ 离 群 点 ”， 或 者 没有 标号 。 使 用 基于 聚 类 的 方法 ， 发 现 一 个 大 艇 C 和 一 个 小 簇 C,。 因 为 C 
中 的 某 些 对 象 携带 了 标号 “正常 ” ， 因 此 可 以 把 该 艇 的 所 有 对 象 (包括 没有 标号 的 对 象 ) 都 
看 做 正常 对 象 。 在 离 群 点 检测 中 ， 使 用 这 个 艇 的 一 类 模型 来 识别 离 群 点 。 类 似 地 ， 因 为 艇 
Ci 中 的 某 些 对 象 携 带 标号 “ 离 群 点 ” ， 因 此 宣布 C 中 的 所 有 对 象 都 是 离 群 点 。 未 落 入 C 模 


型 中 的 任何 对 象 (如 ea) 也 被 视 为 离 群 点 。 a 
De C, 
° no oc 
oa me 中 o 


o 标号 为 “正常 ”的 对 象 e。 标 号 为 “ 离 群 点 ”的 对 象 0 无 标号 的 对 象 
图 12.14 通过 半 监 督学 习 检 测 离 群 点 


通过 从 有 标号 的 样本 学 习 ， 基 于 分 类 的 方法 可 以 把 人 的 领域 知识 吸纳 到 检测 过 程 中 。 一 
且 构 建 好 分 类 模型 ， 离 群 点 检测 过 程 就 很 快 。 只 需要 把 被 考察 的 对 象 与 由 训练 数据 学 习 得 到 
的 模型 进行 比较 。 基 于 分 类 的 方法 的 质量 高 度 依赖 训练 集 的 可 利用 性 和 质量 。 在 许多 应 用 
中 ， 很 难得 到 高 质量 的 训练 数据 ， 这 制约 了 基于 分 类 的 方法 的 应 用 。 


12.7 ”挖掘 情境 离 群 点 和 集体 离 群 点 

给 定数 据 集 的 一 个 数据 对 象 是 情境 离 群 点 (或 条 件 离 群 点 ) ， 如 果 关 于 指定 的 对 象 情 
境 ， 它 显著 地 偏离 〈12. 1 节 ) 。 情 境 使 用 情境 属性 定义 。 这 些 高 度 依赖 于 应 用 ， 并 且 通 常 由 
用 户 提供 ， 作 为 情境 离 群 点 检测 任务 的 一 部 分 。 情 境 属性 可 以 包括 空间 属性 、 时 间 、 网 络 位 
置 和 复杂 结构 的 属性 。 此 外 ， 行 为 属性 定义 对 象 的 特征 ， 并 用 于 估计 对 象 在 它 所 属 的 情境 下 
是 否 是 离 群 点 。 

例 12. 21 情境 离 群 点 。 为 了 确定 某 处 的 温度 是 否 异 常 〈 离 群 点 ) ， 说 明 关 于 地 点 信息 
的 属性 充当 情境 属性 。 这 些 属性 可 以 是 空间 属性 (如 经 纬度 ) 或 图 或 网 络 中 的 位 置 属性 。 
也 可 以 使 用 时 间 属 性 。 在 客户 关系 管理 中 ， 一 位 顾客 是 否 是 离 群 点 可 能 依赖 于 具有 类 似 概 况 
的 其 他 顾客 。 这 里 ， 定 义 顾客 概况 的 属性 提供 离 群 点 检测 的 情境 。 

与 一 般 的 离 群 点 检测 相 比 ， 识 别 情境 离 群 点 需要 分 析 对 应 的 情境 信息 。 情 境 离 群 点 检测 
方法 可 以 根据 情境 是 否 可 以 清楚 地 识别 而 分 成 两 类 。 


12.7.1 把 情境 离 群 点 检测 转换 成 传统 的 离 群 点 检测 

这 类 方法 适用 于 情境 可 以 被 清楚 识别 的 情况 ， 其 基本 思想 是 把 情境 离 群 点 检测 问题 转换 
成 典型 的 离 群 点 检测 问题 。 具 体 地 说 ， 对 于 给 定 的 数据 对 象 ， 用 两 步 来 评估 该 对 象 是 否 是 离 
群 点 。 第 一 步 ， 使 用 对 象 的 情境 属性 识别 对 象 的 情境 。 第 二 步 ， 使 用 一 种 传统 的 离 群 点 检测 
方法 ， 估 计 该 对 象 的 离 群 点 得 分 。 

例 12. 22 ”情境 可 以 清楚 识别 时 的 情境 离 群 点 检测 。 在 客户 联系 管理 中 ， 可 以 在 顾客 组 
群 的 情境 下 检测 离 群 点 顾客 。 假 设 AllElectronics 在 4 个 属性 上 记录 了 顾客 信息 ， 这 些 属性 是 
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年 龄 组 age_group (B25 岁 以 下 、25 ~45、45 ~65 和 65 岁 以 上 ) 、 邮 政 编 码 post_code 、 每 年 
的 购买 次 数 number_of_transaction_per_year 和 年 度 购买 总 量 annual_total_transaction amount, 
属性 年 龄 组 和 邮政 编码 充当 情境 属性 ， 而 每 年 的 购买 次 数 和 年 度 购 买 总 量 是 行为 属性 。 

为 了 检测 这 种 情况 下 的 离 群 点 ， 对 于 顾客 <， 首先 使 用 属性 年 龄 组 和 邮政 编码 确定 c 的 
情境 。 然 后 ， 可 以 把 e 与 同一 组 群 的 其 他 顾客 进行 比较 ， 并 使 用 传统 的 离 群 点 检测 方法 (前 
面 讨 论 的 那些 ) 来 确定 c 是 否 是 离 群 点 。 m 

情境 可 以 在 不 同 的 粒度 层 指 定 。 假 设 AlElectronics 在 比 属性 年 龄 组 、 邮 政 编码 、 每 年 的 
购买 次 数 和 年 度 购 买 总 量 更 组 的 粒度 上 记录 顾客 信息 。 仍 然 可 以 在 年 龄 组 和 邮政 编码 上 对 顾 
客 分 组 ， 然 后 在 每 组 上 挖 气 离 群 点 。 如 果 落 人 一 个 组 群 中 的 顾客 数 很 少 ， 甚 至 为 0， 怎 么 
Dp? 对 于 顾客 c<， 如 果 对 应 的 情境 包含 很 少 ， 其 至 没有 其 他 顾客 ， 那 么 使 用 精确 的 情境 评估 
c 是 否 是 离 群 点 是 很 不 可 靠 的 ， 其 至 是 不 可 能 的 。 

为 了 解决 这 一 难题 ， 可 以 假定 居住 在 相同 区 域 、 年 龄 差不多 的 顾客 具有 相似 的 正常 行 
为 。 这 一 假定 有 助 于 把 情境 一 般 化 ， 并 且 使 离 群 点 检测 更 有 效 。 例 如 ， 使 用 训练 数据 ， 可 以 
在 情境 属性 上 学 习 数 据 的 一 个 混合 模型 U0， 在 行为 属性 上 学 习 数 据 的 另 一 个 混合 模型 VY。 还 
学 习 一 个 映射 p(V; | 0,) ， 捕 获 属于 情境 属性 上 的 能 U, 的 对 象 o 被 行为 属性 上 的 簇 耻 产生 的 
概率 。 离 群 点 得 分 可 以 用 下 式 计 算 

S(o0) = > p(o E Uj) Z plo e V;)p(V; | U;) (12. 20) 


这 样 ， 情 境 离 群 点 问题 被 转换 成 使 用 混合 模型 的 离 群 点 检测 。 


12.7.2 关于 情境 对 正常 行为 建 模 

在 某 些 应 用 中 ， 清 楚 地 把 数据 划分 成 情境 是 不 方便 的 或 不 可 行 的 。 例 如 ， 考 虑 如 下 情 
Oi, AllElectronics 的 网 店 在 搜索 日 志 中 记录 了 顾客 的 浏览 。 对 于 每 位 顾客 ， 数 据 日 志 记 录 了 
该 顾客 搜索 的 和 浏览 的 产品 。AllElectronics 对 情境 离 群 点 行为 感 兴趣 ， 例 如 ， 一 位 顾客 突然 
购买 一 件 与 她 的 当前 浏览 不 相关 的 产品 。 然 而 ， 在 这 个 应 用 中 ， 情 境 不 可 能 很 容易 地 指定 ， 
因为 不 清楚 先前 浏览 过 的 多 少 产品 应 该 考虑 作为 情境 ， 并 且 这 一 数量 可 能 因 产 品 而 蜡 。 

第 二 类 情境 离 群 点 检测 方法 关于 情境 对 正常 行为 建 模 。 使 用 一 个 训练 数据 集 ， 这 种 方法 
训练 一 个 模型 ， 关 于 情境 属性 的 值 ， 预 测 期 望 的 行为 属性 值 。 然 后 ， 为 了 确定 一 个 数据 对 象 
是 否 是 情境 离 群 点 ， 可 以 在 该 对 象 的 情境 属性 上 使 用 该 模型 。 如 果 该 对 象 的 行为 属性 值 显著 
地 偏离 该 模型 的 预测 值 ， 则 该 对 象 被 宣布 为 情境 离 群 点 。 

通过 使 用 连接 情境 和 行为 的 预测 模型 ， 这 些 方法 避免 直接 识别 具体 情境 。 许 多 分 类 和 预 
测 技术 都 可 以 用 来 构建 这 种 模型 ， 如 回归 、 马 尔 科 夫 模型 和 有 穷 状 态 自动 机 。 关 于 更 多 细 
节 ， 建 议 感 兴趣 的 读者 参阅 关于 分 类 的 第 8 章 、 第 9 章 和 文献 注释 (12. 11 节 ) 。 

总 之 ， 通 过 考虑 情境 (这 在 许多 应 用 中 都 是 重要 的 ) ， 情 境 离 群 点 检测 加 强 了 传统 的 离 
群 点 检测 。 可 以 检测 传统 方法 不 能 检测 的 离 群 点 。 考 虑 一 位 信用 卡 用 户 ， 她 的 收入 水 平 很 
低 ,， 但 消费 模式 类 似 于 百 万 富 癸 。 如 使 用 收入 水 平定 义 情 境 ， 则 该 用 户 可 能 被 检测 为 离 群 
点 。 没 有 情境 信息 ， 该 用 户 不 可 能 被 检测 为 离 群 点 ， 因 为 她 确实 与 许多 百 万 富 作 有 相同 的 消 
费 模式 。 在 离 群 点 检测 中 ， 考 虑 情境 还 可 以 帮助 避免 假 警报 。 不 考虑 情境 ， 一 位 百 万 富 癸 的 
购买 事务 可 能 错误 地 被 检测 为 离 群 点 ， 如 果 训 练 集中 的 大 多 数 顾客 都 不 是 百 万 富翁 。 通 过 在 
离 群 点 检测 中 吸纳 情境 信息 ， 这 种 错误 可 以 被 更 正 。 
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12.7.3 挖掘 集体 离 群 点 

一 组 数据 对 象形 成 一 个 集体 离 群 点 ， 如 果 这 些 对 象 作为 一 个 整体 显著 地 偏离 整个 数据 
集 ， 尽 管 该 组 群 中 的 每 个 对 象 可 能 并 非 离 群 点 〈12. 1 节 )。 为 了 检测 集体 离 群 点 ， 必 须 考察 
数据 集 的 结构 ， 即 多 个 数据 对 象 之 间 的 联系 。 这 使 得 该 问题 比 传统 的 离 群 点 检测 和 情境 离 群 
点 检测 更 困难 。 

“如 何 探 察 数据 集 的 结构 ?” 通 常 ， 这 依赖 于 数据 的 性 质 。 对 于 时 间 数 据 ( 例 如， 时 间 
序列 和 序列 ) 的 离 群 点 检测 而 言 ， 探 测 按时 间 形 成 的 结构 ， 它 们 出 现 于 时 间 序 列 的 片段 或 
子 序列 中 。 为 了 检测 空间 数据 中 的 离 群 点 ， 探 测 局 部 区 域 。 类 似 地 ， 在 图 或 网 络 数 据 中 ， 探 
测 子 图 。 对 于 这 些 数据 类 型 来 说 ， 这 些 结构 都 是 固有 的 。 

情境 离 群 点 检测 和 集体 离 群 点 检测 是 类 似 的 ， 因 为 它们 都 探测 结构 。 在 情境 离 群 点 检测 
中 ， 结 构 是 情境 ， 用 情境 属性 明确 指定 。 集 体 离 群 点 检测 的 关键 区 别 是 ， 结 构 通常 不 是 明确 
定义 的 ， 而 必须 作为 离 群 点 检测 过 程 的 一 部 分 来 发 现 。 

与 情境 离 群 点 检测 一 样 ， 集 体 离 群 点 检测 方法 也 可 以 划分 成 两 类 。 第 一 类 方法 把 问题 归 
约 为 传统 的 离 群 点 检测 。 其 策略 是 识别 结构 单元 ， 把 每 个 结构 单元 〈 例 如 ， 子 序列 、 时 间 
序列 片段 、 局 部 区 域 或 子 图 ) 看 做 一 个 数据 对 象 ， 并 提取 特征 。 这 样 ， 集 体 离 群 点 检测 问 
题 就 转换 成 在 使 用 提取 的 特征 构造 的 “结构 化 对 象 ” 集 上 的 离 群 点 检测 。 一 个 结构 单元 代 
表 原 数据 集中 的 一 组 对 象 ， 如 果 该 结构 单元 显著 地 偏离 提取 的 特征 空间 中 的 期 望 趋势 ， 则 它 
是 一 个 集体 离 群 点 。 

例 12.23 图 数据 上 的 集体 离 群 点 检测 。 让 我 们 看 看 如 何在 .AllElectronics 的 在 线 顾 客 社 
会 网 络 上 检测 离 群 点 。 假 设 把 该 社会 网 络 看 做 无 标号 图 。 于 是 ， 该 网 络 的 每 个 子 图 都 可 以 看 
做 一 个 结构 单元 。 对 于 每 个 子 图 S, 令 15 | 为 $ 中 的 顶点 数 , freq(S) 为 5 在 网 络 中 的 频 度 。 
即 freg(S) 是 网 络 中 与 5 同 构 的 不 同 子 图 数 。 可 以 使 用 这 两 个 特征 来 检测 离 群 点 子 图 。 一 个 
离 群 点 子 图 是 一 个 包含 多 个 顶点 的 集体 离 群 点 。 

一 般 而 言 ， 小 子 图 〈 例 如 ， 单 个 项 点 或 用 一 条 边 连接 的 一 对 项 点 ) 可 望 是 频繁 的 ， 而 
大 子 图 可 望 是 非 频繁 的 。 使 用 以 上 简单 方法 ， 可 以 检测 具有 非常 低频 度 的 小 子 图 和 具有 出 人 
意料 频 度 的 大 子 图 。 这 些 是 社会 网 络 中 的 离 群 点 结构 。 n 

为 集体 离 群 点 检测 预先 定义 结构 单元 可 能 是 困难 的 ， 或 者 是 不 可 能 的 。 因 此 ， 第 二 类 方 
法 直接 对 结构 单元 的 期 望 行为 建 模 。 例 如 ， 为 了 在 时 间 序 列 中 检测 离 群 点 ， 一 种 方法 是 从 序 
列 中 学 习 马 尔 科 夫 模型 。 因 此 ， 一 个 子 序列 被 宣布 为 集体 离 群 点 ， 如 果 它 显著 地 偏离 该 
模型 。 

总 之 ， 由 于 探索 数据 中 结构 的 任务 艰巨 ， 所 以 集体 离 群 点 检测 相当 微妙 。 典 型 地 ， 这 种 
探索 使 用 启发 式 方法 ， 因 而 可 能 依赖 于 应 用 。 由 于 挖掘 过 程 复 杂 ， 计 算 开 销 通常 很 高 。 尽 管 
实践 中 非常 有 用 ， 但 是 集体 离 群 点 检测 依然 具有 挑战 ， 需 要 进一步 研究 与 开发 。 


12.8 高 维 数据 中 的 离 群 点 检测 

在 某 些 应 用 中 ， 可 能 需要 检测 高 维 数据 中 的 离 群 点 。 维 灾难 对 有 效 的 离 群 点 检测 提出 了 
巨大 挑战 。 随 着 维度 的 增加 ， 对 象 之 间 的 距离 可 能 严重 被 噪声 所 左右 。 也 就 是 说 ， 在 高 维 空 
间 中 ， 两 点 之 间 的 距离 或 相似 性 可 能 并 不 反映 点 之 间 的 实际 联系 。 因 此 ， 随 着 维度 的 增加 ， 
主要 使 用 相似 性 或 密度 识别 离 群 点 的 传统 检测 方法 的 效果 越 来 越 差 。 

理想 地 ， 高 维 数据 的 离 群 点 检测 方法 应 该 应 对 以 下 挑战 : 
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。 离 群 点 的 解释 : 它们 不 仅 应 该 能 够 检测 离 群 点 ， 而 且 能 够 提供 离 群 点 的 解释 。 因 为 
高 维 数据 集 涉及 许多 特征 (或 维 )， 因 此 检测 离 群 点 而 不 提供 为 什么 它们 是 离 群 点 
的 解释 不 是 很 有 用 。 离 群 点 的 解释 可 能 是 ， 例 如 ， 揭 示 离 群 点 的 特定 子 空间 ， 或 者 
关于 对 象 的 “ 离 群 点 性 ”的 评估 。 这 种 解释 可 以 帮助 用 户 理解 离 群 点 的 含义 和 
意义 。 

© 数据 的 稀 朴 性 : 这 些 方法 应 该 能 够 处 理 高 维 空间 的 稀 朴 性 。 随 着 维度 的 增加 ， 对 象 
之 间 的 距离 严重 地 被 噪声 所 左右 。 因 些 ， 高 维 空间 中 的 数据 通常 是 稀疏 的 。 

。 数据 子 空间 : 它们 应 该 以 合适 的 方式 对 离 群 点 建 模 ， 例如， 自 适应 显示 离 群 点 的 子 
空间 和 捕获 数据 的 局 部 变化 。 在 所 有 的 子 空间 上 使 用 固定 的 距离 阐 值 来 检测 离 群 点 
不 是 一 种 好 想法 ， 因 为 两 个 对 象 之 间 的 距离 随 着 维度 增加 而 单调 增加 。 

。 关于 维度 的 可 伸缩 性 : 随 着 维度 的 增加 ， 子 空间 的 数量 指数 增加 。 包 含 所 有 可 能 的 
子 空间 的 穷 举 组 合 探索 不 是 可 伸缩 的 选择 。 

高 维 数据 的 离 群 点 检测 方法 可 以 划分 成 三 种 主要 方法 ,包括 扩充 的 传统 离 群 点 检测 

(12.8.1 节 ) 、 发 现 子 空间 中 的 离 群 点 〈12. 8. 2 节 ) 和 对 高 维 离 群 点 建 模 (12. 8. 3 节 )。 


12.8.1 扩充 的 传统 离 群 点 检测 


一 种 高 维 数据 离 群 点 检测 方法 是 扩充 的 传统 离 群 点 检测 方法 。 它 使 用 传统 的 基于 邻近 性 
的 离 群 点 模型 。 然 而 ， 为 了 克服 高 维 空间 中 邻近 性 度量 恶化 问题 ， 它 使 用 其 他 度量 ， 或 构造 
子 空间 并 在 其 中 检测 离 群 点 。 

HilOut 算法 就 是 这 种 方法 的 一 个 例子 。HilOut 找 出 基于 距离 的 离 群 点 ， 但 在 离 群 点 检 
测 中 使 用 距离 的 秩 ， 而 不 是 绝对 距离 。 具 体 地 说 ， 对 于 每 个 对 象 。，HilOut 找 出 o 的 个 最 
近邻 ， 记 作 nn (0), ，…，nne(o) ， 其 中 必 是 一 个 依赖 于 应 用 的 参数 。 对 象 o 的 权重 定义 为 


W(o) = > dist(o,nni(o) ) (12. 21) 


所 有 对 象 按 权重 递减 序 定 秩 。 权 重 最 高 的 top-! 个 对 象 作为 离 群 点 输出 ， 其 中 ! 是 另 一 个 用 
户 指定 的 参数 。 

计算 每 个 对 象 的 -最 近邻 开销 很 大 ， 当 维度 很 高 并 且 数 据 集 很 大 时 不 能 伸缩 。 为 了 处 
理 可 伸缩 问题 ，HilOut 利用 空间 充填 曲线 得 到 一 个 近似 算法 ， 它 关于 数据 库 规模 和 维度 ， 在 
运行 时 间 和 空间 上 都 是 可 伸缩 的 。 

RER Hilu 这 样 的 一 些 方法 不 顾 高 维 性 ， 在 整个 空间 检测 离 群 点 ， 而 其 他 一 些 方法 
则 通过 维 归 约 〈 第 3 章 ) ， 把 高 维 离 群 点 检测 问题 归结 为 较 低 维 上 的 离 群 点 检测 。 其 基本 思 
想 是 ， 把 高 维 空间 归 约 到 较 低 维 空间 ， 那 里 标准 的 距离 度量 仍然 能 够 区 分 离 群 点 。 如 果 能 够 
找到 这 样 的 较 低 维 空间 ， 则 可 以 使 用 传统 的 离 群 点 检测 方法 。 

为 了 降低 维度 ， 可 以 对 离 群 点 检测 使 用 或 扩充 一 般 的 特征 选择 和 提取 方法 。 例 如 ， 可 以 
使 用 主 成 分 分 析 (PCA) 来 提取 一 个 较 低 维 空间 。 启 发 式 地 ， 具 有 较 低 方差 的 主 成 分 更 可 
取 ， 因 为 在 这 样 的 维 上 ， 正 常 对 象 可 能 相互 靠近 ， 而 离 群 点 通常 偏离 大 多 数 。 

通过 扩充 的 传统 离 群 点 检测 方法 ， 可 以 重用 该 领域 研究 积累 的 许多 经 验 。 然 而 ， 这 些 新 
方法 具有 局 限 性 。 首 先 ， 它 们 不 能 检测 关于 子 空间 的 离 群 点 ， 并 且 具 有 有 限 的 可 解释 性 。 其 
次 ， 仅 当 存 在 较 低 维 空间 ， 那 里 正常 对 象 与 离 群 点 被 很 好 地 分 开 ， 维 归 约 才 是 可 行 的 。 这 种 
假定 并 非 总 是 成 立 。 
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12.8.2 ”发 现 子 空间 中 的 离 群 点 

高 维 数据 中 离 群 点 检测 的 另 一 种 方法 是 搜索 各 种 子 空间 中 的 离 群 点 。 其 唯一 的 优点 是 ， 
如 果 发 现 一 个 对 象 是 很 低 维度 的 子 空间 中 的 离 群 点 ， 则 该 子 空间 提供 了 重要 信息 ,解释 该 对 
象 为 什么 和 在 何 种 程度 上 是 离 群 点 。 由 于 过 多 的 维 存在 ， 这 一 洞察 对 于 具有 高 维 数据 的 应 用 
而 言 是 非常 有 价值 的 。 

例 12.24 子 空间 中 的 离 群 点 。 作 为 AllElectronics 的 客户 联系 经 理 ， 你 对 找 出 离 群 点 顾 
客 感 兴趣 。AllElectronics 维护 了 一 个 大 规模 的 顾客 信息 数据 库 ， 包 含 顾客 的 许多 属性 和 购物 
史 。 这 个 数据 库 是 高 维 的 。 

假设 你 发 现在 包含 平均 购买 量 和 购买 频率 维 的 低 维 子 空 间 上 ， 顾 客 Alice 是 一 个 离 群 点 ， 
她 的 平均 购买 量 显 著 地 高 于 大 多 数 顾客 ， 而 她 的 购买 频率 却 非 常 低 。 该 子 空间 本 身 就 说 明了 
为 什么 和 在 何 种 程度 上 ，Alice 是 一 个 离 群 点 。 使 用 这 一 信息 ， 你 可 以 决定 有 意 地 接近 Al- 
ice， 向 她 建议 可 能 提高 她 在 AllElectronics 购买 频率 的 选择 性 项 目 。 m 

“如 何 检测 子 空间 中 的 离 群 点 ?” 我 们 使 用 一 种 基于 网 格 的 子 空间 高 群 点 检测 方法 进行 
解释 。 其 主要 思想 如 下 。 考 虑 数据 到 各 种 子 空间 上 的 投影 。 如 果 在 一 个 子 空间 中 ， 我 们 发 现 
一 个 区 域 ， 其 密度 比 平 均 密 度 低 很 多 ， 则 该 区 域 很 可 能 包含 离 群 点 。 为 了 找 出 这 种 投影 ， 首 
先 以 等 深 的 方式 把 数据 离散 化 到 网 格 中 。 也 就 是 说 ， 每 个 维 被 划分 成 由 个 等 深 的 区 间 ， 其 


由 每 个 区 间 包 含 对 象 的 /(/= 二 ) 部 分 。 选 择 等 深 划 分 是 因为 数据 对 象 沿 不 同 的 维 可 能 具有 


不 同 的 局 部 性 。 空 间 的 等 宽 划分 可 能 不 能 反映 这 种 局 部 性 差异 。 
接 下 来 ， 在 子 空间 中 搜索 被 这 些 区 间 定 义 的 显著 稀 朴 的 区 域 。 为 了 量化 何 为 “显著 稀 
政 ”， 考 虑 上 维 上 个 区 间 形 成 的 & 维 立方 体 。 假 设 数据 集 包 含 个 对 象 。 如 果 对 象 是 独立 


分 布 的 ， 则 落 入 上 维 区 域 中 的 期望 对 象 数 为 (证) = =/n。 在 一 个 维 区 域 中 点 数 的 标准 差 


为 vA (1 -了 六 )n。 假 设 特定 的 上 维 立 方 体 C 有 n(C) 个 对 象 。 可 以 定义 C 的 稀疏 系数 为 
S(C) = _n(C) -fn .22 
(C) ean (12. 22) 
WR SCC) <0, WUC 包含 的 对 象 少 于 期 望 。S(C) WED (E, RAH), CRA, FE 
C 中 的 对 象 越 可 能 是 该 子 空 间 中 的 离 群 点 。 

WBE SCC) 服从 正 态 分 布 ， 我 们 可 以 对 数据 服从 均匀 分 布 的 先 验 假定 ， 使 用 标准 正 
态 分 布 表 来 确定 对 象 显著 地 偏离 平均 值 的 水 平 。 一 般 而 言 ， 均 匀 分 布 的 假定 不 成 立 。 然 而 ， 
稀疏 性 系数 还 是 提供 了 一 个 区 域 的 “ 离 群 点 性 ”的 直观 度量 。 

为 了 找 出 显著 小 的 稀 琉 性 系数 值 ， 一 种 训 力 方法 搜索 每 个 可 能 的 子 空间 中 的 每 个 立方 
体 。 然 而 ， 这 种 开销 是 指数 上 升 的 。 可 以 进行 循序 渐进 的 搜索 ， 以 准确 性 为 代价 提高 效率 。 
细节 请 参阅 文献 注释 (12.11 节 ) 。 包 含 在 具有 很 小 稀 朴 性 系数 值 的 立方 体 中 的 对 象 被 作为 
离 群 点 输出 。 

总 之 ， 在 子 空间 中 搜索 离 群 点 是 有 益 的 ， 因 为 子 空 间 所 提供 的 环境 信息 使 得 所 发 现 的 离 
群 点 往往 更 容易 理解 。 挑 战 包括 使 搜索 有 效 和 可 伸缩 。 


12.8.3 高 维 离 群 点 建 模 
高 维 数据 离 群 点 检测 的 另 一 种 方法 是 ,试图 直接 为 高 维 离 群 点 建立 一 个 新 模型 。 这 种 方 
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法 通常 避免 邻近 性 度量 ， 而 是 采用 新 的 启发 式 方法 来 检测 离 群 点 。 这 种 方法 不 会 在 高 维 数据 


中 退化 。 — c 
证 我 们 以 考察 基于 角 的 离 群 点 检测 ( Angle- d x . 
Based Outlier Detection, ABOD) 为 例 。 。 CQ o e 
$112.25 ”基于 角 的 离 群 点 。 图 1215 包含 了 一 L 。 a 
SAR, Re 之 外 的 点 形成 一 个 能 ，e 是 离 群 点 。 对 于 À 


每 个 对 象 。， 对 于 每 个 点 对 x Aly, x#o, y40, GR 图 12.15 “基于 角度 的 离 群 点 
角 人 xoy。 作 为 一 个 例子 ,该 图 显示 了 人 dae。 
注意 ， 对 于 簇 中心 的 点 (例如 ，a)， 这 样 形成 的 角度 差别 很 大 。 对 于 筷 边 沿 上 的 点 
(例如 ,5)， 角 度 的 变化 较 小 。 对 于 离 群 点 (例如 ，c)， 角 度 变化 显著 地 小 。 这 一 观察 暗 
示 ， 可 以 使 用 点 的 角度 方差 来 确定 一 个 点 是 否 是 离 群 点 。 = 
可 以 结合 角度 和 距离 来 对 离 群 点 建 模 。 准 确 地 说 ， 对 于 每 个 点 e， 使 用 距离 加 权 的 角度 
方差 (distance- weighted angle variance) 作为 离 群 点 得 分 。 即 给 定 一 个 点 集 D， 对 于 每 个 点 
0 e DD， 定义 基于 角度 的 离 群 点 因子 (Angle-Based Outlier Factor，ABOF) 为 
(ox ,oy) 
dist(o,x)*dist(o,y)” 








ABOF(0) = VAR, soon (12. 23) 


其 中 , (,) 是 点 积 操作 ， 而 dist(,) 是 标准 距离 。 . 

显然 ， 点 离 复 越 远 ， 点 的 角度 的 方差 越 小 ，ABOF 越 小 。 基 于 角度 的 离 群 点 检测 方法 
(ABOD) 对 每 个 点 计算 ABOF ， 并 且 按 ABOF 递增 序 输出 数据 集中 点 的 列表 。 

对 数据 库 中 的 每 个 点 计算 精确 的 ABOF 的 开销 很 大 ， 时 间 复 杂 度 为 0( 忆 ) ， 其 中 是 数 
据 库 中 的 点 数 。 显 然 ， 精 确 算法 不 能 缩放 到 大 型 数据 集 。 已 经 开发 了 近似 算法 来 加 快 计算 速 
度 。 基 于 角度 的 离 群 点 检测 的 思想 已 经 被 推广 ， 用 来 处 理 任意 类 型 的 数据 。 关 于 更 多 的 细 
节 ， 参 见 文献 注释 (12.11 节 )。 

为 高 维 离 群 点 开发 自然 的 模型 可 能 导致 更 有 效 的 方法 。 然 而 ， 为 检测 高 维 离 群 点 发 现 好 
的 启发 式 方法 是 困难 的 。 在 大 型 高 维 数据 上 的 有 效 性 和 可 伸缩 性 是 主要 挑战 。 


12.9 小 结 


假定 一 个 给 定 的 统计 过 程 用 来 产生 数据 对 象 集 。 离 群 点 是 显著 偏离 其 余 对 象 的 数据 对 象 ， 仿 佛 它 是 
被 不 同 的 机 制 产生 的 。 

。 离 群 点 的 类 型 包括 全 局 离 群 点 、 情 境 离 群 点 和 集体 离 群 点 。 一 个 对 象 可 能 是 多 种 类 型 的 离 群 点 。 

° 全 局 离 群 点 是 最 简单 的 离 群 点 形式 ， 并 且 最 容易 检测 。 情 境 离 群 点 关于 对 象 的 特定 情境 显著 地 偏离 
其 他 对 象 〈《 例 如 ， 多 伦 多 的 温度 值 28 民 是 一 个 离 群 点 ， 如 果 它 出 现 中 冬天 ) 。 数 据 对 象 的 一 个 子 集 
形成 集体 离 群 点 ， 如 果 这 些 对 象 作 为 整体 显著 地 偏离 整个 数据 集 ， 尽 管 个 体 数据 对 象 可 能 不 是 离 群 
点 。 集 体 离 群 点 检测 需要 背景 信息 来 对 对 象 之 间 的 联系 建 模 ， 以 便 发 现 离 群 点 的 组 群 。 

离 群 点 检测 的 挑战 包括 发 现 合适 的 数据 模型 、 离 群 点 检测 系统 对 应 用 的 依赖 性 、 找 到 区 别离 群 点 与 
噪声 的 方法 和 提供 为 什么 对 象 被 识别 为 离 群 点 的 解释 。 

离 群 点 检测 方法 可 以 根据 用 于 分 析 的 数据 样本 是 否 是 给 定 专家 提供 的 、 可 以 用 来 建立 离 群 点 检测 模 
型 的 标号 来 分 类 。 在 这 种 情况 下 ， 检 测 方法 可 以 是 监督 的 、 半 监督 的 或 无 监督 的 。 或 者 ， 离 群 点 检 
测 方 法 也 可 以 根据 它们 对 正常 对 象 与 离 群 点 的 假定 来 组 织 。 这 种 类 别 包括 统计 学 方法 、 基 于 邻近 性 
的 方法 和 基于 聚 类 的 方法 。 

统计 学 离 群 点 检测 方法 〈 或 基于 模型 的 方法 ) 假定 正常 的 数据 对 象 遵 守 一 个 统计 学 模型 ， 而 不 尊 
守 该 模型 的 数据 被 视 为 离 群 点 。 这 种 模型 可 以 是 参数 的 【〔 它 假定 数据 被 一 个 参数 分 布 产生 ) Beak 
参数 的 《 它 由 数据 学 习 模型 ， 而 不 是 先 验 地 假定 一 个 ) 。 多 元 数据 的 参数 方法 可 以 使 用 马 哈 拉 诺 比 
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斯 距离 、* 统计 量 或 多 个 参数 模型 的 混合 。 直 方 图 和 核 密 度 估计 都 是 非 参数 模型 的 例子 。 

。 基于 邻近 性 的 离 群 点 检测 方法 假定 一 个 对 象 是 离 群 点 ， 如 果 该 对 象 与 它 最 近邻 的 邻近 性 显著 地 偏离 
相同 数据 集中 大 部 分 其 他 对 象 与 它们 最 近邻 的 邻近 人 性。 基于 距离 的 离 群 点 检测 方法 考虑 被 半径 定义 
的 对 象 的 邻 域 。 一 个 对 象 是 离 群 点 ， 如 果 它 的 邻 域 没 有 足够 多 的 其 他 点 。 在 基于 密度 的 离 群 点 检测 
方法 中 ， 一 个 对 象 是 离 群 点 ， 如 果 它 的 密度 比 它 的 近邻 相对 低 得 多 。 

。 基于 聚 类 的 离 群 点 检测 方法 假定 正常 的 数据 对 象 属于 大 的 、 笛 密 的 簇 ， 而 离 群 点 属于 小 的 或 稀 政 的 
i, RARER . 

。 基于 分 类 的 离 群 点 检测 方法 通常 使 用 一 类 模型 。 即 构建 一 个 仅 描 述 正常 类 的 分 类 器 。 不 属于 正常 类 
的 任何 样本 都 被 视 为 离 群 点 。 

。 情境 高 群 点 检测 和 集体 离 群 点 检测 探索 数据 中 的 结构 。 在 情境 离 群 点 检测 ， 结 构 是 使 用 情境 属性 定 
义 的 情境 。 在 集体 离 群 点 检测 ， 结 构 是 蕴涵 的 ， 并 且 作 为 挖掘 过 程 的 一 部 分 来 探索 。 为 了 检测 这 类 
离 群 点 ， 一 种 方法 是 把 该 问题 转换 成 传统 的 离 群 点 检测 问题 。 另 一 种 方法 直接 对 结构 建 模 。 

。 高 维 数据 的 离 群 点 检测 方法 可 以 划分 成 三 种 主要 方法 。 这 些 包 括 扩充 的 传统 离 群 点 检测 、 找 出 子 空 
间 中 的 离 群 点 和 对 高 维 离 群 点 建 模 。 


12.10 习题 


12.1 给 出 一 个 应 用 实例 ， 那 里 全 局 离 群 点 、 情 境 离 群 点 和 集体 离 群 点 都 是 感 兴趣 的 。 属 性 是 什么 、 情 境 
属性 和 行为 属性 是 什么 ? 在 集体 离 群 点 检测 中 ， 被 建 模 的 对 象 之 间 如 何 联系 ? 

12.2 给 出 一 个 应 用 实例 ， 其 中 正常 对 象 与 离 群 点 之 间 的 边界 通常 是 不 清楚 的 ， 因 而 必须 估计 一 个 对 象 是 
离 群 点 的 程度 。 

12.3 改写 一 种 简单 的 半 监 督 方法 ， 用 于 离 群 点 检测 。 讨 论 如 下 情况 : (a) 只 有 一 些 被 标记 的 正常 对 象 ; 
(b) 只 有 一 些 被 标记 的 离 群 点 实例 。 

12.4 使 用 等 深 直 方 图 设计 一 种 方法 ， 赋 予 对 象 一 个 离 群 点 得 分 。 . 

12.5 ARMATE BE ARIE ye (E 12.6), BRRR R PRENEHA, BI ot 
象 都 以 相同 的 概率 出 现在 一 个 位 置 上 。 证 明 ; 当 离 群 点 的 数量 相对 于 整个 数据 集中 的 对 象 总 数 很 小 
时 ， 上 距离 计算 的 期 望 数量 线性 于 对 象 数 。 

12.6 在 12.4.3 节 的 基于 密度 的 离 群 点 检测 方法 中 ， 局 部 可 达 密度 存在 一 个 潜在 的 问题 : 可 能 出 现 rd, 
(0) =o 。 解 释 为 什么 可 能 出 现 这 种 情况 ， 并 提出 一 种 方法 解决 该 问题 。 

12.7 ”因为 能 可 能 形成 一 个 层次 结构 ， 所 以 离 群 点 可 能 属于 不 同 的 粒度 层 。 提 出 一 种 基于 聚 类 的 离 群 点 检 
测 方法 ， 它 可 以 在 不 同 层 发 现 离 群 点。 

12.8 在 通过 半 监 督学 习 检 测 离 群 点 时 ， 使 用 训练 数据 集中 无 标号 的 对 象 的 优点 是 什么 ? 

12.9 为 了 理解 为 什么 基于 角度 的 离 群 点 检测 是 一 种 启发 式 方法 ， 给 出 一 个 它 不 太 有 效 的 例子 。 你 能 想 出 
一 种 解决 这 一 问题 的 方法 吗 ? 


12.11 文献 注释 


Hawkins[ Haw80] 从 统计 学 角度 定义 了 离 群 点 。 关 于 离 群 点 和 异常 检测 的 评述 和 辅导 材料 ， 见 Chando- 
la, Banerjee 和 Kumar[ CBK09 ] Hodge 和 Austin[ HA04 ] ， Agyemang, Barker 和 Alhajj[ ABA06 ] Markou 和 
Singh[ MS03a, MS03b], Patcha 和 Park[ PP07 ] Beckman 和 Cook[ BC83 ] Ben-Gal[ BG05 ] Bakar, Mohe- 
mad, Ahmad 和 Deris[ BMAD06]., Song, Wu, Jermaine 等 [SWJR07] 提出 了 条 件 离 群 点 的 概念 和 情境 离 群 
点 检测 。 

Fujimaki, Yairi 和 Machida[ FYMOS] 给 出 了 一 个 使 用 被 标记 的 “正常 ”对 象 集 的 半 监 督 离 群 点 检测 的 
例子 。 关 于 使 用 标记 的 离 群 点 的 半 监 督 离 群 点 检测 的 例子 ， 见 Dasgupta 和 Majumdar[ DM02 ] 。 

Shewhart[ She31 ] 假定 大 部 分 对 象 都 服从 一 个 高 斯 分 布 ， 并 使 用 3o 作为 阔 值 来 识别 离 群 点 ， 其 中 必 是 
标准 差 。 盒 图 在 诸如 医学 数据 等 各 种 应 用 中 都 被 用 来 检测 和 可 视 化 离 群 点 (Hom、Feng、Li 和 Pesce 
[HFLPOI ] ) Grubbs[ Gru69 ] Stefansky[ Ste72 ] ， 以 及 Anscombe 和 Guttman [ AG60] 讨论 了 Grubbs 检验 。 
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Laurikkala, Juhola 和 Kentala[ LJK00] Aggarwal 和 Yu[ AYO1] 扩充 了 Grubbs 检验 ， 检 测 多 元 离 群 点 。Ye 和 
Chen[ YC01] 研究 使 用 x 统计 量 来 检测 多 元 离 群 点 。 

Agarwal[ Aga06] 使 用 高 斯 混合 模型 捕获 “正常 数据 ”。Abraham 和 Box[ AB79] 假定 离 群 点 是 被 一 个 具 
有 很 大 方差 的 正 态 分 布 产 生 。Eskin[ Esk00] 使 用 EM 算法 来 学 习 正常 数据 和 离 群 点 的 混合 模型 。 

基于 直方 图 的 离 群 点 检测 方法 在 人 侵 检测 (Eskin[ Esk00], Eskin, Arnold, Prerau 等 [EAP*02]) 和 
缺陷 检测 (Fawcett 和 Provost[ FP97] ) 应 用 领域 很 流行 。 

Knorr 和 Ng[ KN97] 开发 了 基于 距离 的 离 群 点 。 基 于 索引 、 基 于 藤 套 循环 和 基于 网 格 的 方法 都 被 探索 
(Knorr 和 Ng[KN98 ] Knorr, Ng 和 Tucakov [ KNT00 ])， 以 加 快 基于 距离 的 离 群 点 检测 速度 。Bay 和 
Schwabacher[ BS03 ] ， 以 及 Jin, Tung 和 Han[ JTHO1] 指出 , EMA CPU 运行 时 间 通 常 是 关于 数据 
库 大 小 可 伸缩 的 。Tao、Xiao 和 Zhou[ TXZ06] 提出 了 一 种 算法 ， 使 用 固定 的 主 存 ， 通 过 3 次 数据 库 扫描 ， 
发 现 所 有 的 基于 距离 的 离 群 点 。 当 内 存 较 大 时 ， 他 们 提出 了 一 种 只 用 一 次 或 两 次 扫描 的 方法 。 

基于 密度 的 离 群 点 的 概念 首先 由 Breunig, Kriegel, Ng 和 Sander[ BKNS00] 提出 。 在 基于 密度 这 一 主题 
下 已 经 提出 的 各 种 方法 ， 包 括 Jin, Tung 和 Han[ JTHO1], Jin, Tung, Han 和 Wang[ JIHW06] ， 以 及 Papad- 
imitriou, Kitagawa, Gibbons 等 [ PKGF03 ] 。 这 些 变 形 因 和 密度 估计 方法 不 同 而 异 。 

例 12. 17 讨论 的 自助 方法 由 Barbara, Li, Couto 等 [BLC*03] 提出 。FindCBOLF 算法 由 He, Xu 和 
Deng[ HXD03 ] 给 出 。 关 于 中 离 群 点 检测 方法 中 使 用 固定 宽度 的 聚 类 ， 见 Eskin, A. Arnold, M. Prerau 
[EAP*02], Mahoney 和 Chan[ MC03] ， 以 及 He, Xu 和 Deng[ HXD03 ] Barbara, Wu 和 Jajodia[ BWJ01] 在 
网 络 人 侵 检 测 中 使 用 多 类 分 类 。 

Song, Wu, Jermaine 等 [SWJR07 ] Fawcet 和 Provost[ FP97] 提出 了 一 种 方法 ， 把 情境 离 群 点 检测 问 
题 归 约 为 传统 的 离 群 点 检测 问题 。Yi、Sidiropoulos Johnson, Jagadish 等 [YSJ* 00] 使 用 回归 技术 检测 协 
同 进 化 的 序列 中 的 情境 离 群 点 。 例 12. 22 中 在 图 数据 上 检测 集体 离 群 点 的 思想 基于 Noble 和 Cook[ NC03] 。 

HilOut 算法 由 Angiulli 和 Pizzuti[ AP05] 提出 。Aggarwal 和 Yul AY01] 开发 了 基于 稀 硫 性 系数 的 子 空间 
离 群 点 检测 方法 。Kriegel 、Schubert 和 Zimek[ KSZ08] 提出 了 基于 角度 的 离 群 点 检测 。 
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作为 一 个 新 兴 的 研究 领域 ， 自 从 20 世纪 80 年 代 开 始 以 来 ， 数 据 挖 据 已 经 取得 了 显著 进 
展 并 且 涵 盖 了 广泛 的 应 用 。 今 天 ， 数 据 控 气 已 经 被 应 用 到 了 众多 的 领域 ， 同 时 出 现 了 大 量 的 
商品 化 的 数据 挖掘 系统 和 服务 。 然 而 ， 许 多 挑战 依然 存在 。 本 章 介绍 复杂 数据 类 型 的 数据 控 
据 ， 作 为 读者 可 能 选择 进行 深入 研究 的 前 奏 。 此 外 ， 我 们 关注 数据 挖掘 的 趋势 和 研究 前 沿 。 
13.1 节 是 复杂 数据 类 型 挖掘 的 概述 ， 扩 展 了 本 书 介绍 的 概念 和 任务 。 这 些 挖掘 包括 控 掘 时 
间 序 列 、 序 列 模式 和 生物 学 序列 ， 图 和 网 络 ， 时 间 空 间 数据 ， 包 括 地 理 数 据 、 时 空 数据 、 移 
动 对 象 和 物 联网 系统 数据 ， 多 媒体 数据 ， 文 本 数据 ，Web 数据 和 数据 流 。13. 2 节 简 略 介绍 
数据 挖掘 的 其 他 方法 ， 包 括 统 计 学 方法 、 理 论 基础 、 可 视 和 听觉 数据 挖掘。 

在 13. 3 节 ， 我们 将 学 习 数据 挖 扬 在 商务 和 科学 领域 的 更 多 应 用 ， 包 括 财经 零售 、 通 信 
产业 、 科 学 与 工程 ， 以 及 推荐 系统 。 数 据 挖掘 的 社会 影响 在 13.4 节 讨 论 ， 包 括 普 适 和 无 形 
的 数据 挖掘 ， 以 及 保护 隐私 的 数据 挖掘 。 最 后 ， 在 13. 5 节 ， 我 们 考察 为 响应 该 领域 的 挑战 ， 
数据 挖掘 发 展 的 当前 和 预期 趋势 。 


13.1 挖掘 复杂 的 数据 类 型 


本 节 ， 我 们 概述 挖掘 复杂 数据 类 型 的 主要 研究 与 进展 。 复 杂 数 据 类 型 汇总 在 图 13. 1 中 。 
13. 1. 1 节 介 绍 挖掘 序列 数据 ， 如 挖掘 时 间 序列 、 符 号 序列 和 生物 学 序列 。13. 1. 2 节 讨论 挖 
掘 图 、 社 会 和 信息 网 络 。1. 3. 1. 3 节 处 理 挖掘 其 他 类 型 的 数据 ， 包 括 挖掘 时 间 数 据 、 时 间 空 
间 数 据 、 移 动 对 象 数据 、 物 联网 系统 数据 、 多 媒体 数据 、 文 本 数据 、Web 数据 和 数据 流 。 
由 于 这 些 主题 的 广泛 性 ， 本 节 只 给 出 一 个 高 层 概述 ， 而 不 在 本 书 深 入 讨论 。 

加 时 间 序 列 数据 〈 例 如 ， 股 票 交易 数据 ) 
昌 符 号 序列 数据 〈 例 如 ， 顾 客 购买 序列 、 


Web 点 击 流 ) 
图 生物 学 序列 (例如 ，DNA 和 和 蛋 白质 序 列 ) 



















n 同 质数 据 (节点 /链接 具有 相同 类 型 ) 
或 异 质数 据 〈 节 点 /链接 具有 不 同类 型 ) 


BAT: 图 、 社 会 和 信息 网 络 
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m2 E 
量 时 间 空 间 数 据 
E 物流 网 系统 数据 
加 多 媒体 数据 

看 文本 数据 

a Web 数 据 

加 数据 流 


图 13.1 挖掘 的 复杂 数据 类 型 










13.1.1 挖掘 序列 数据 ;时 间 序 列 、 符 号 序列 和 生物 学 序列 
序列 是 事件 的 有 序列 表 。 根 据 事件 的 特征 ， 序 列 数据 可 以 分 成 三 类 : (1) 时 间 序 列 数 
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据 ; (2) 符号 序列 数据 ; G) 生物 学 序列 。 让 我 们 考虑 每 种 类 型 。 

在 时 间 序 列 数据 (time-series data) 中 ， 序 列 数据 由 相等 时 间 间 隔 (例如 ， 每 分 钟 、 每 
小 时 或 每 天 ) 记录 的 数值 数据 的 长 序列 组 成 。 时 间 序 列 数据 可 以 被 许多 自然 或 经 济 过 程 产 
生 ， 如 股票 市 场 、 科 学 、 医 学 或 自然 观测 。 

符号 序列 数据 (symbolic sequence data) 由 事件 或 标 称 数据 的 长 序列 组 成 ， 通 常 不 是 相 
等 的 时 间 间 隔 观测 。 对 于 许多 这 样 的 序列 ， 间 隙 〈 即 ， 记 录 的 事件 之 间 的 时 间 间 隔 ) 无 关 
紧要 。 例 子 包括 顾客 购物 序列 、Web 点 击 流 ， 以 及 科学 和 工程 、 自 然 和 社会 发 展 的 事件 
序列 。 

生物 学 序列 (biological sequence) 包括 DNA 序列 和 和 蛋白质 序列 。 这 种 序列 通常 很 长 ， 
携带 重要 的 、 复 杂 的 、 隐 藏 的 语义 。 这 里 ， 间 隙 通常 是 重要 的 。 

让 我 们 考察 这 些 序列 数据 的 挖掘 。 

1. 时 间 序 列 数据 的 相似 性 搜索 

时 间 序 列 数据 集 包 含 不 同时 间 点 重复 测量 得 到 的 数值 序列 。 通 常 ， 这 些 值 在 相等 时 间 间 
隔 ( 例 如， 每 分 钟 、 每 小 时 或 每 天 ) 测量 。 时 间 序 列 数据 库 在 许多 应 用 都 很 普遍 ， 如 股票 
市 场 分 析 、 经 济 和 销售 预测 、 预 算 分 析 、 效 用 研究 、 库 存 研究 、 产 出 预测 、 工 作 量 预测 和 过 
程 与 质量 控制 。 对 于 研究 自然 现象 (例如 ， 大 气 、 温 度 、 风 、 地 震 ) 、 科 学 与 工程 实验 、 医 
疗 处 置 等 也 是 有 用 的 。 

与 一 般 的 数据 查询 找 出 严格 匹配 查询 的 数据 不 同 ， 相 似 性 搜索 找 出 稍微 不 同 于 给 定 查 询 
序列 的 数据 序列 。 许 多 时 间 序 列 的 相似 性 查询 都 要 求 子 序列 匹配 ， 即 找 出 包含 与 给 定 查 询 序 
列 相似 的 子 序列 的 数据 序列 的 集合 

对 于 相似 性 搜索 ， 通 常 需要 先 对 时 间 序 列 数据 进行 数据 或 维度 归 约 和 变换 。 典 型 的 维 归 
约 技术 包括 : (1) 离散 傅 里 叶 变 换 (DET); (2) 离散 小 波 变 换 (DWT); G) 基于 主 成 分 
分 析 (PCA) 的 奇异 值 分 解 (SVD) 。 因 为 已 经 在 第 3 章 涉及 了 这 些 内 容 ， 并 且 详 尽 的 解释 

已 经 超出 本 书 范围 ， 所 以 不 再 更 详细 地 讨论 。 使 用 这 些 技术 ， 数 据 或 信号 被 映射 到 变换 后 的 
空间 。 保 留 一 小 组 “最 强 的 ”变换 后 的 系数 作为 特征 。 

这 些 特 征 形成 特征 空间 ， 它 是 变换 后 的 空间 的 投影 。 可 以 在 原 数 据 或 变换 后 的 时 间 序 列 
数据 上 构建 索引 ， 以 加 快 搜索 速度 。 对 于 基于 查询 的 相似 性 搜索 ， 技 术 包括 规范 化 变换 、 原 
子 匹配 〈 即 找 出 相似 的 、 短 的 、 无 间隙 窗口 对 ) 、 窗 口 缝合 ( 即 缝合 相似 的 窗口 ， 形 成 大 的 
相似 序列 ， 允 许 原 子 匹 配 之 间 有 间隙 )， 以 及 子 序列 排序 〈 即 对 子 序列 匹配 线性 排序 ， 确 定 
是 否 存 在 足够 相似 的 片段 )。 关 于 时 间 序 列 数据 的 相似 性 搜索 ， 存 在 大 量 软件 包 。 

最 近 ， 研 究 人 员 提 出 把 时 间 序 列 数据 变换 成 逐 段 聚 集 近似 ， 使 得 时 间 序列 数据 可 以 看 做 
符号 表示 的 序列 。 然 后 ， 相 似 性 搜索 问题 变换 成 在 符号 序列 数据 中 匹配 子 序列 的 相似 性 搜 
索 。 我 们 可 以 识别 基本 模式 (motif) ( 即 频 繁 出 现 的 序列 模式 ) ， 并 为 基于 这 种 基本 模式 的 
有 效 搜索 构建 索引 和 散 列 机 制 。 实 验 表 明 ， 这 种 方法 快速 、 简 单 ， 并 且 与 DFT、DWT 和 其 
他 维 归 约 方法 相 比 ， 搜 索 质 量 相当 。 

2. 时 间 序 列 数据 的 回归 和 趋势 分 析 

在 统计 学 和 信号 人 处理 中 ， 时 间 序 列 数据 的 回归 分 析 已 经 做 了 大 量 研 究 。 然 而 ， 对 于 许多 
实际 应 用 而 言 ， 我 们 可 能 需要 超越 纯粹 的 回归 ， 需 要 进行 趋势 分 析 。 趋 势 分 析 是 一 个 集成 模 
型 ， 使 用 如 下 四 种 主要 成 分 或 趋势 刻画 时 间 序 列 数据 ， 

(1) 趋势 或 长 期 动向 (trend or long-term movement) : 指出 时 间 序 列 随时 间 运 动 的 大 体 
方向 。 例 如 ， 使 用 加 权 的 移动 平均 和 最 小 二 乘 方法 找 出 如 图 13. 2 虚线 所 示 的 趋势 曲线 。 
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-一 一 Allejectronics 股 票 
一 一 一 10 天 移动 平均 








价格 








时 间 
图 13.2 AllElectronics 的 股票 价格 时 间 序 列 数据 。 趋 势 用 移动 平均 计算 ， 用 虚线 显示 


(2) 周期 动向 (cycle movement): 这 是 趋势 线 或 曲线 的 长 期 波动 。 

(3) 季节 变化 (seasonal variation); 指 几 乎 相同 的 模式 出 现 于 相继 年 份 的 对 应 季节 ， 如 
节日 购物 季节 。 为 了 有 效 的 趋势 分 析 ， 数 据 通常 需要 根据 自 相 关 计 算 的 季节 指数 进行 “去 
季节 化 ”。 

(4) 随机 动向 (random movement): 这 些 刻画 由 于 劳务 争议 或 公司 内 部 宣布 的 人 事变 化 
等 偶然 事件 导致 的 随机 变化 。 

趋势 分 析 也 可 以 用 于 时 间 序 列 预测 ， 即 找 出 一 个 数学 函数 ， 它 近似 地 产生 时 间 序 列 的 历 
史 模 式 ， 并 使 用 它 对 未 来 的 数据 进行 长 期 或 短期 预测 。 自 动 回归 集成 的 移动 平均 (Auto-Re- 
gressive Integrated Moving Average) ARIMA 、 长 记忆 时 间 序 列 建 模 (long- memory time- series 
modeling) 和 和 自 回 归 (autoregression) 都 是 用 于 这 种 分 析 的 流行 系统 。 

3. 符号 序列 中 的 序列 模式 挖掘 

符号 序列 由 元 素 或 事件 的 有 序 集 组 成 ， 记 录 或 未 记录 具体 时 间 。 许 多 应 用 都 涉及 符号 序 
列 数据 ， 如 顾客 购物 序列 、Web 点 击 流 序列 、 程 序 执行 序列 、 生 物 学 序列 、 科 学 与 工程 和 
自然 与 社会 发 展 的 事件 序列 。 因 为 生物 学 序列 携带 了 非常 复杂 的 语义 ， 提 出 了 许多 挑战 性 研 
究 问 题 ， 因 此 大 部 分 这 种 研究 都 在 生物 信息 学 领域 进行 。 

序列 模式 挖掘 广泛 地 关注 挖掘 符号 序列 模式 。 序 列 模式 是 一 个 存在 于 单个 序列 或 一 个 序 
列 集中 的 频繁 子 序 列 。 序 列 a = <aiaz…a, > 是 另 一 个 序列 B = <b,b,--b, > 的 子 序列 ， 如 果 
存在 整数 Sj <j <o <j Sm, 使 得 a Cb, a, Cb,, …，a, Cb o 例如 ， 如 果 
a=<{ab}, d>, B=<jabe|, {be}, {de}, a>, EPa, b, c, d 和 e 都 是 项 , Wake 
的 子 序列 。 序 列 模 式 挖掘 是 控 据 在 一 个 序列 或 序列 集中 频繁 的 子 序列 。 作 为 该 领域 广泛 研究 
的 结果 ， 已 经 开发 了 许多 可 伸缩 的 算法 。 或 者 ， 我 们 可 以 只 挖掘 闭 序列 模式 的 集合 ， 其 中 一 
个 序列 模式 * 是 闭 的 ， 如 果 不 存 在 序列 模式 s ,使 得 是 * WASPS, FFAs’ Ss 具有 相同 
( 频 度 ) 支持 度 。 类 似 于 对 应 的 频繁 模式 挖掘 ， 还 有 一 些 有 效 地 挖掘 多 维 、 多 层 序 列 模式 的 
研究 。 

与 基于 约束 的 频繁 模式 挖掘 一 样 ， 用 户 指定 的 约束 可 以 用 来 缩小 序列 模式 挖掘 的 搜索 空 
间 ， 只 导出 用 户 感 兴趣 的 模式 ， 这 称 为 基于 约束 的 序列 模式 挖掘 。 此 外 ， 还 可 以 对 序列 模式 
挖掘 问题 放宽 或 施加 额外 的 约束 ， 以 便 从 序列 数据 导出 不 同类 型 的 模式 。 例 如 ， 可 以 强化 间 
际 约 束 ， 使 得 导出 的 模式 只 包含 连续 的 子 序列 或 具有 很 小 间隙 的 子 序列 。 或 者 ， 也 可 以 通过 
把 事件 折 释 到 合适 的 窗口 中 导出 周期 序列 ， 在 这 些 窗 口中 发 现 循环 子 序列 。 另 一 种 方法 通过 
放宽 序列 模式 挖 扎 中 的 严格 序列 序 的 要 求 ， 导 出 偏 序 模式 。 除 了 挖掘 偏 序 模式 外 ， 序 列 模式 
挖掘 方法 还 可 以 扩展 ， 挖 掘 树 、 格 、 情 节 和 其 他 有 序 模式 。 
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4. 序列 分 类 

大 部 分 分 类 方法 都 基于 特征 向 量 构建 模型 。 然 而 ， 序 列 没 有 明显 的 特征 。 即 便 使 用 复杂 
的 特征 选择 技术 ， 可 能 的 特征 的 维度 也 非常 高 ， 并 且 序 列 特征 的 性 质 也 很 难 捕获 。 这 使 得 序 
列 分 类 成 为 一 项 具有 挑战 性 的 任务 。 

序列 分 类 方法 可 以 分 成 三 类 : (1) 基于 特征 的 分 类 ， 它 们 把 序列 转换 成 特征 向 量 ， 然 
后 使 用 传统 的 分 类 方法 ; (2) 基于 序列 距离 的 分 类 ， 其 中 度量 序列 之 间 相 似 性 的 距离 函数 
决定 分 类 的 质量 ; (3) 基于 模型 的 分 类 ， 如 使 用 隐 马 尔 科 夫 模型 (HMM) 或 其 他 统计 学 模 
型 来 对 序列 分 类 。 

对 于 时 间 序 列 或 其 他 数值 数据 ， 用 于 符号 序列 的 特征 选择 技术 不 能 用 于 非 离 散 化 的 时 间 
序列 数据 。 然 而 ， 离 散 化 可 能 导致 信息 损失 。 最 近 提 出 的 时 间 序 列 shapelets 方法 用 最 能 表示 
类 的 时 间 序 列子 序列 为 特征 ， 取 得 了 高 质量 的 分 类 结果 。 

5. 生物 学 序列 比 对 

生物 学 序列 通常 是 指 核 苷 酸 或 氨基 酸 序列 。 生 物 学 序列 分 析 比 较 、 比 对 、 索 引 和 分 析 生 
物 学 序列 ， 因 而 在 生物 信息 学 和 现代 生物 学 中 起 着 至 关 重 要 的 作用 。 

序列 比 对 (sequence alignment) 基于 如 下 事实 : 所 有 活 的 生物 体 都 是 进化 相关 的 。 这 意 
味 着 进化 中 相近 物种 的 核 背 酸 (DNA, RNA) 和 和 蛋白 质 序列 应 该 表现 出 更 多 的 相似 性 。 比 
对 (alignment) 是 对 序列 排列 以 便 获取 最 大 程度 的 一 致 性 ， 它 也 表示 序列 之 间 的 相似 程度 。 
两 个 序列 是 同 源 的 (homologous) ， 如 果 它 们 具有 共同 的 祖先 。 通 过 序列 比 对 得 到 的 相似 性 
在 确定 两 个 序列 同 源 的 可 能 性 时 是 很 有 用 的 。 这 样 的 比 对 也 有 助 于 确定 多 个 物种 在 进化 树 中 
的 相对 位 置 ， 这 种 进化 树 称 为 种 系 发 生 树 (phylogenetic tree) 。 

生物 序列 比 对 的 问题 可 以 描述 如 下 : 对 于 给 定 的 两 个 或 多 个 输入 生物 序列 ， 识 别 具 有 长 
保守 子 序列 的 相似 序列 。 如 果 比 对 的 序列 个 数 恰 为 2， 则 称 该 问题 为 双 序 列 比 对 ( pairwise 
sequence alignment); 否则 ， 多 序列 比 对 (multiple sequence alignment) 。 待 比较 和 比 对 的 序 
NAT AREAS AR (DNA/RNA) 或 氨基 酸 (和 蛋白质) 。 对 于 核 苷 酸 来 说 ， 如 果 两 个 符号 相同 ， 
则 它们 对 齐 。 然 而 ， 对 于 氨基 酸 来 说 ， 如 果 两 个 符号 相同 ， 或 者 一 个 可 以 通过 可 能 自然 出 现 
的 替换 从 另 一 个 得 到 ， 则 它们 对 齐 。 有 两 种 比 对 : 局 部 比 对 和 全 局 比 对 。 前 者 意味 着 仅 有 部 . 
分 序列 进行 比 对 ， 而 后 者 需要 在 序列 的 整个 长 度 上 进行 比 对 。 

对 于 核 背 酸 或 氨基 酸 来 说 ， 插 人 、 删 除 和 置换 在 自然 界 以 不 同 的 概率 出 现 。 置 换 和 矩阵 用 于 
描述 核 苷 酸 或 氨基 酸 的 置换 概率 和 插 人 、 删 除 概率 。 通 常 ， 使 用 间隔 符 “ - ”表示 最 好 不 要 
比 对 两 个 符号 的 位 置 。 为 了 评估 比 对 的 质量 ， 通 常 需要 定义 一 个 评分 机 制 ， 它 通常 将 相同 或 相 
似 的 符号 计 为 正 得 分 ， 同 时 将 间隔 符 记 为 负 得 分 。 得 分 的 代数 和 作为 比 对 的 度量 。 比 对 的 目标 
就 是 在 所 有 可 能 比 对 中 获取 最 大 得 分 。 然 而 ， 找 到 最 佳 比 对 的 代价 是 昂贵 的 (更 确切 地 说 ， 是 
一 个 NP 困难 问题 )。 因 此 ， 开 发 了 不 同 的 启发 式 方法 ， 用 于 找到 次 优 比 对 。 

动态 规划 方法 通常 用 于 序列 比 对 。 在 许多 可 用 的 分 析 软 件 包 中 ， 基 本 局 部 比 对 搜索 工具 
(Basic Local Alignment Search Tool, BLAST) 是 最 流行 的 生物 学 序列 分 析 工 具 之 一 。 

6. 生物 学 序列 分 析 的 隐 马 尔 科 夫 模 型 

给 定 一 个 生物 学 序列 ， 生 物 学 家 想 要 分 析 该 序列 代表 什么 。 为 了 表示 序列 的 结构 或 统计 
规律 ， 生 物 学 家 构造 各 种 概率 模型 ， 如 马尔 科 夫 链 和 隐 马 尔 科 夫 模型 。 在 这 两 种 模型 中 ， 一 - 
个 状态 的 概率 仅 依赖 于 前 一 个 状态 。 因 此 ， 它 们 对 生物 学 序列 数据 分 析 特 别 有 用 。 构 建 隐 马 
尔 科 夫 模 型 最 常用 的 方法 是 前 向 算法 、Viterbi 算法 和 Baum- Welch 算法 。 给 定 一 个 符号 序列 
x， 前 向 算法 找 出 在 该 模型 中 得 到 x 的 概率 ，Viterbi 算法 找 出 通过 模型 的 最 可 能 路 径 (对 应 
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Fx), mi Baum- Welch 算法 则 学 习 或 调整 模型 的 参数 ， 以 最 好 地 解释 训练 序列 集 。 


13.1.2 挖 扬 图 和 网 络 

图 表示 更 一 般 的 结构 ， 比 集合 、 序 列 、 格 和 树 更 一 般 。 图 应 用 范围 广泛 ， 涉 及 Web 和 
社会 网 络 、 信 息 网 络 、 生 物 学 网 络 、 生 物 信息 学 、 化 学 情报 学 、 计 算 机 视觉 、 多 媒体 和 文本 
检索 。 因 此 ， 图 和 网 络 控 掘 变 得 日 趋 重要 ， 并 被 大 量 研究 。 我 们 概述 如 下 主题 : (1) 图 模 
式 挖掘 ; (2) 网 络 的 统计 建 模 ; (3) 通过 网 络 分 析 进 行 数据 清理 、 集 成 和 验证 ; (4) 图 和 
同 质 网 络 的 聚 类 与 分 类 ; (5) 异 质 网 络 的 娶 类 、 秩 评定 和 分 类 ; (6) 信息 网 络 中 的 角色 发 
现 和 链接 预测 ; (7) 信息 网 络 中 的 相似 性 搜索 和 OLAP; (8) 信息 网 络 的 演变 。 

1. 图 模式 挖掘 

图 模式 挖掘 是 在 一 个 图 或 一 个 图 集中 挖掘 频繁 子 图 (又 称 (+) 图 模式 ) 。 挖 掘 图 模式 
的 方法 可 以 分 成 基于 Apriori 和 基于 模式 增长 的 方法 。 或 者 ， 我 们 也 可 以 挖掘 闭 图 的 集合 ， 
其 中 ,图 g 是 闭 的 ， 如 果 不 存在 具有 与 8 相同 的 支持 度 计 数 的 真 超 图 g'。 此 外 ， 存 在 许多 图 
模式 的 变形 ， 包 括 近似 的 频繁 图 、 凝 聚 图 和 稠密 图 。 用 户 指定 的 约束 可 以 推进 到 图 模式 挖 所 
过 程 中 ， 以 提高 控 气 的 效率 。 

图 模式 控 气 有 许多 有 趣 的 应 用 。 例 如 ， 基 于 频繁 和 有 区 别 力 的 图 模式 概念 ， 它 可 以 用 来 
产生 紧凑 和 有 效 的 图 索引 结构 。 利 用 图 索引 结构 和 多 个 图 特征 ， 可 以 实现 近似 的 结构 相似 性 
搜索 。 此 外 ， 用 频繁 的 和 有 区 别 力 的 子 图 作为 特征 ， 可 以 有 效 地 进行 图 分 类 。 

2. 网 络 的 统计 建 模 

网 络 由 一 个 节点 集 和 一 个 连接 这 些 节 点 的 边 〈 或 链接 ) 集 组 成 ; 每 个 节点 对 应 于 一个 
对 象 ， 与 一 组 性 质 相 关联 ; 边 表示 对 象 之 间 的 联系 。 一 个 网 络 是 同 质 的 ， 如 果 所 有 的 节点 和 
边 都 具有 相同 的 类 型 ， 如 朋友 网 络 、 合 著者 网 络 和 网 页 网 络 。 一 个 网 络 是 异 质 的 ， 如 果 节 点 
和 边 具有 不 同类 型 ， 如 发 表 物 网 络 (把 作者 、 引 文 、 论 文 和 内 容 链 接 在 一 起 ) 和 卫生 保健 
网 络 (把 医生 、 护 士 、 患 者 和 处 置 链接 在 -一 起 ) 。 

研究 人 员 已 经 为 同 质 网 络 提出 了 多 种 统计 模型 。 最 著名 的 生成 模型 是 随机 图 模型 
( Erdös- Rényi 模型 ) | Watts-Strogatz 模型 和 无 标 度 模型 。 无 标 度 模型 假定 网 络 服从 指数 分 布 
定律 〈 又 称 为 Pareto 分 布 或 重 尾 分 布 )。 在 大 部 分 大 型 社会 网 络 中 都 观察 到 小 世界 现象 
(small-world phenomenon) ， 即 网 络 可 以 刻画 为 对 于 一 小 部 分 节点 具有 高 度 局 部 聚 类 ( 即 这 
些 节 点 相互 连接 ) ， 而 这 些 节 点 与 其 余 节 点 的 分 割 度 没有 多 少 。 

社会 网 络 展示 了 某 些 进化 特征 。 它 们 趋向 于 遵守 稠 化 罕 律 〈densification power law), EŢ 
网 络 随 着 时 间 推 移 变 得 越 来 越 稠密 。 收 缩 直 径 是 另 一 个 特征 ， 即 随 着 网 络 的 增长 ， 有 效 直 径 
通常 会 减 小 。 节 点 的 出 度 和 和 人 度 通常 服从 重 尾 分 布 。 

3. 通过 网 络 分 析 进 行 数据 清理 、 集 成 和 验证 

现实 世界 中 的 数据 常常 是 不 完整 的 、 含 噪声 的 、 不 确定 的 和 不 可 靠 的 。 在 大 型 网 络 中 ， 互 连 
的 多 个 数据 片段 之 间 可 能 存在 信息 元 余 。 通 过 网 络 分 析 ， 可 以 探查 这 种 网 络 中 的 信息 元 余 ， 以 进 
行 高 质量 的 数据 清理 、 数 据 集成 、 信 息 验 证 和 可 信 性 分 析 。 例 如 ， 可 以 通过 考察 与 其 他 异种 对 象 
(如 合 著者 、 发 表 物 和 术语 ) 的 网 络 连接 来 区 别 姓名 相同 的 作者 。 此 外 ， 可 以 通过 考察 基于 多 个 
书籍 销售 商 提 供 的 作者 信息 建立 的 网 络 ， 识 别 书籍 销售 商 提 供 的 不 准确 的 作者 信息 。 

在 这 个 方向 ， 已 经 开发 了 复杂 的 信息 网 络 分 析 方法 ， 并 且 在 许多 情况 下 ， 部 分 数据 充当 “ 训 
练 集 " 。 也 就 是 说 ， 来 自 多 个 信息 提供 者 的 相对 清洁 、 可 靠 的 数据 或 一 致 的 数据 可 以 用 来 帮助 加 
固 其 余 的 、 不 可 靠 的 数据 。 这 降低 了 手动 标记 数据 和 在 大 量 的 、 动 态 的 实际 数据 上 的 训练 代价 。 


382 











393 





第 13 章 ”数据 挖掘 的 发 展 趋势 和 研究 前 沿 


4. 图 和 同 质 网 络 的 聚 类 与 分 类 

大 型 图 和 网 络 具 有 内 聚 结 构 ， 通 常 隆 藏 在 大 量 互 连 的 节点 和 链接 中 。 已 经 开发 了 大 型 网 
络 上 的 聚 类 分 析 方 法 ， 以 揭示 网 络 结构 ， 基 于 网 络 的 拓扑 结构 和 它们 相关 联 的 性 质 发 现 隐藏 
的 社区 、 中 心 和 离 群 点 。 经 开发 了 各 种 类 型 的 由 络 硅 类 方法 ， 可 以 把 它们 分 为 划分 的 、 层 
次 的 或 基于 密度 的 。 此 外 ， 定 由 人 标记 的 训练 数据 ， 可 以 用 人 指定 的 启发 式 约束 来 指导 网 
AR ERAND 领域 中 ， 网 络 的 监督 分 类 和 半 监 督 分 类 是 当前 的 热门 课题 。 

5. 蜡 质 网 络 的 聚 类 、 秩 评定 和 分 类 

异 质 网 络 包含 不 同类 型 的 互联 的 节点 和 链接 。 这 种 互联 结构 包含 丰富 的 信息 ， 可 以 用 来 
相互 加 强 节点 和 链接 ， 从 一 种 类 型 到 另 一 种 类 型 传播 知识 。 这 种 异 质 网 络 的 聚 类 和 秩 评定 可 
以 在 如 下 情境 下 携手 并 进 : 在 得 的 内 聚 性 评估 方面 ， 簇 中 高 秩 的 节点 /链接 可 比较 低 秩 的 节 
点 /链接 贡献 更 大 。 聚 类 可 以 帮助 加 强 对 象 /链接 贡献 给 饮 的 高 的 秩 评定 。 这 种 秩 评定 和 聚 类 
的 相互 加 强 推动 了 一 种 称 为 RankClus 算法 的 开发 。 此 外 ， 用 户 可 以 指定 不 同 的 秩 评定 规则 
或 为 某 种 类 型 的 数据 提供 标记 的 节点 /链接 。 一 种 类 型 的 知识 可 以 传播 到 另 一 种 类 再 。 这 种 
传播 经 由 异种 类 型 的 链接 到 达 相 同类 型 的 节点 /链接 。 已 经 开发 了 在 异 质 网 络 中 进行 监督 学 
习 和 半 监 督学 习 的 算法 。 

6. 信息 网 络 中 的 角色 发 现 和 链接 预测 

在 异 质 网 络 的 不 同 节点 /链接 之 间 可 能 存在 许多 隐藏 的 角色 或 联系 。 例 子 包括 科研 发 表 
物 网 络 中 的 导师 -学 生 、 领 导 -下 属 联系 。 为 了 发 现 这 种 隐藏 的 角色 或 联系 ， 专 家 可 以 基于 
他 们 的 背景 知识 指定 一 些 约束 。 强 化 这 种 约束 可 能 有 助 于 大 型 互联 网 络 中 的 交叉 检查 和 验 
证 。 网 络 中 的 元 余 信息 常常 可 以 用 来 清除 不 满足 这 些 约束 的 对 象 /链接 。 

类 似 地 ， 可 以 基于 对 候选 节点 /链接 之 间 的 期 望 联系 的 秩 评定 的 估计 进行 链接 预测 。 例 
如 ， 可 以 基于 作者 发 表 论文 的 历史 和 类 似 课 题 的 研究 趋势 ， 预 测 作者 可 能 写 、 读 或 引用 哪 篇 
论文 。 这 种 研究 一 般 要 分 析 网 络 节点 /链接 的 邻近 性 和 趋势 以 及 它们 类 似 近 邻 的 连接 性 。 粗 
略 地 说 ， 人 们 把 链接 预测 看 做 链接 挖掘 。 然 而 ， 链 接 挖掘 还 涵盖 其 他 任务 ， 包 括 基 于 链接 对 
象 分 类 、 对 象 类 型 预测 、 链 接 类 型 预测 、 链 接 存 在 性 预测 、 链 接 基数 估计 和 对 象 一 致 性 
(预测 两 个 对 象 是 否 事 实 上 相同 )。 它 还 包括 分 组 预测 (对 对 象 聚 类 ) ， 以 及 子 图 识别 (发现 
网 络 中 的 典型 子 图 ) 和 元 数据 挖 据 (发 现 无 结构 数据 的 模式 类 型 信息 ) 。 

7. 信息 网 络 中 的 相似 性 搜索 和 OLAP 

相似 性 搜索 是 数据 库 和 Web 搜索 引擎 中 的 基本 操作 。 混 杂 信 息 网 络 由 多 种 类 型 的 、 互 
联 的 对 象 组 成 。 例 子 包括 文献 网 络 和 社会 媒体 网 络 ， 那 里 两 个 对 象 被 视 为 相似 的 ， 如 果 它 们 
以 类 似 的 方式 与 多 种 类 型 的 对 象 链接 。 一 般 而 言 ， 网 络 中 对 象 的 相似 性 可 以 基于 网 络 结构 、 
对 象 性 质 和 使 用 的 相似 性 度量 来 确定 。 此 外 ， 网 络 聚 类 和 层次 网 络 结构 有 助 于 组 织 网 络 对 象 
和 识别 子 社区 ， 还 有 利于 相似 性 搜索 。 此 外 ， 相 似 性 定义 可 能 因 用 户 而 异 。 通 过 考虑 不 同 的 
链接 路 径 ， 可 以 得 到 网 络 中 不 同 的 相似 性 语义 ， 这 称 为 基于 路 径 的 相似 性 。 

通过 基于 相似 性 和 艇 来 组 织 网 络 ， 可 以 产生 网 络 中 的 多 种 层次 结构 。 可 以 进行 联机 分 析 
处 理 〈OLAP) 。 例 如 ， 可 以 基于 不 同 的 抽象 层 和 不 同 的 视角 ， 在 信息 网 络 上 下 钴 和 切 块 。 
OLAP 可 能 产生 多 个 相互 关联 的 网 络 。 这 种 网 络 之 间 的 联系 可 能 揭示 有 趣 的 隐藏 语义 。 

8， 社 会 与 信息 网 络 的 演变 

网 络 动态 地 持续 演变 。 检 测 同 质 或 异 质 网 络 中 的 演变 社区 和 演变 规律 或 异常 可 以 帮助 人 
们 更 好 地 理解 网 络 的 结构 演变 ， 预 测 演 变 网 络 中 的 趋势 和 不 规则 性 。 对 于 同 质 网 络 ， 所 发 现 
的 演变 社区 是 由 相同 类 型 的 对 象 组 成 的 子 网 络 ， 如 朋友 或 合 著者 的 集合 。 然 而 ， 对 于 异 质 网 
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络 ， 所 发 现 的 社区 由 不 同类 型 的 对 象 的 子 网 络 组 成 ， 如 有 联系 的 论文 、 作 者 、 发 表 物 和 术语 
的 集合 。 由 此 ， 也 可 以 对 每 种 类 型 导出 演变 对 象 的 集合 ， 如 演变 的 作者 和 主题 。 


13.1.3 ” 挖 据 其 他 类 型 的 数据 


除 序列 和 图 外 ， 还 有 许多 其 他 类 型 的 半 结 构 或 无 结构 数据 ， 如 时 空 数据 、 多 媒体 数据 和 
超 文本 数据 ， 它 们 都 有 有 趣 的 应 用 。 这 些 数 据 携 带 各 种 语义 ， 或 者 存储 在 系统 中 ， 或 者 动态 
地 流 经 系统 ， 并 且 需 要 专门 的 数据 挖 抉 方法。 因此， 挖掘 多 种 类 型 的 数据 ， 包 括 空间 数据 、 
时 空 数据 、 物 联网 系统 数据 、 多 媒体 数据 、 文 本 数据 、Web 数据 和 数据 流 ， 是 数据 挖掘 日 
趋 重要 的 任务 。 本 节 概 述 挖 所 这 些 类 型 数据 的 方法 。 

1. 挖掘 空间 数据 

空间 数据 挖 据 从 空间 数据 中 发 现 模式 和 知识 。 在 许多 情况 下 ， 空 间 数据 是 指 存放 在 地 理 
数据 库 中 与 地 球 空 间 有 关 的 数据 。 这 种 数据 可 以 是 “向 量 ” 或 “光栅 ”格式 , 或 者 是 成 像 
和 地 理 参照 的 多 媒体 格式 。 最 近 ， 通 过 集成 多 个 数据 源 的 主题 和 地 理 参照 数据 ， 已 经 构建 了 
大 型 地 理 数据 仓库 。 由 此 ， 我 们 可 以 构建 包含 空间 维和 度量 ,支持 多 维 空间 数据 分 析 的 空间 
OLAP 操作 空间 的 数据 立方 体 。 空 间 数据 控 掘 可 以 在 空间 数据 仓库 、 空 间 数据 库 和 其 他 地 理 
空间 数据 库 上 进行 。 地 理 知识 发 现 和 空间 数据 挖掘 的 一 般 主题 包括 挖 气 空 间 关联 和 协同 定位 
模式 、 空 间 聚 类 、 空 间 分 类 、 空 间 建 模 和 空间 趋势 和 离 群 点 分 析 。 

2. 挖掘 时 空 数据 和 移动 对 象 

时 空 数 据 是 与 时 间 和 空间 都 相关 的 数据 。 时 空 数 据 挖 据 是 指 从 时 空 数 据 中 发 现 模 式 和 知 
识 的 过 程 。 时 空 数据 挖掘 的 典型 例子 包括 发 现 城市 和 土地 的 演变 历史 、 发 现 气 象 模 式 、 预 测 
地 震 和 由 风 、 确 定 全 球 变 暖 趋势 。 考 虑 到 手机 、GPS 设备 、 基 于 Internet 的 地 图 服务 、 气 象 
服务 、 数 字 地 球 ， 以 及 人 造 卫 星 、RFID 、 传 感 器 、 无 线 电 和 视频 技术 的 流行 ， 时 空 数据 控 
掘 正 变 得 日 趋 重要 并 且 具 有 深远 影响 。 

在 多 种 时 空 数据 中 ， 移 动 对 象 数据 〈 即 关于 移动 对 象 的 数据 ) 特别 重要 。 例 如 ， 动 物 
学 家 把 遥感 设备 安装 在 野生 动物 身上 ， 以 便 分 析 生 态 行 为 ; 机 动车 辆 管理 者 把 GPS 安装 在 
汽车 上 ， 以 便 更 好 地 监管 和 引导 车 辆 ; 气象 学 家 使 用 人 造 卫 星 和 雷达 观察 飓风 。 巨 大 规模 的 
移动 对 得 数据 正 变 得 丰富 、 复 杂 和 无 处 不 在 。 移 动 对 象 数据 挖掘 的 例子 包括 多 移动 对 象 的 运 
动 模式 〈 即 多 个 移动 对 象 之 间 联 系 的 发 现 ， 如 移动 的 化、 领头 者 和 追随 者 、 合 并 、 运 输 、 
成 群 移动 ， 以 及 其 他 集体 运动 模式 ) 。 移 动 对 象 数 据 挖掘 的 其 他 例子 包括 挖掘 一 个 或 一 组 移 
动 对 象 的 周期 模式 、 聚 类 、 模 型 和 离 群 点 。 

3. 挖 据 物 联网 系统 数据 

典型 地 ， 物 联网 系统 (Cyber-Physical Sytem，CPS) 由 大 量 相互 作用 的 物理 和 信息 部 件 
组 成 。CPS 系统 可 以 是 互联 的 ， 以 便 形成 大 的 混杂 物 联网 。 物 联网 的 例子 包括 : 患者 护理 系 
统 ， 它 把 患者 监护 系统 与 患者 /医疗 信息 网 络 和 应 急 处 理 系 统 相连 接 ; 运输 系统 ; 它 把 由 许 
多 传感器 和 视频 摄像 头 组 成 的 交通 监控 网 络 与 交通 信息 与 控制 系统 相连 接 ; 战地 指挥 系统 ， 
它 连 接 传感器 /侦察 网 络 和 战场 信息 分 析 系 统 。 显 然 ， 物 联系 统 和 网 络 将 无 处 不 在 ， 将 成 为 
现代 信息 基础 设施 的 关键 组 成 部 分 。 

集成 在 物 联 系统 中 的 数据 是 动态 的 、 易 变 的 、 含 噪声 的 、 不 一 致 的 和 相互 依赖 的 ， 包 含 
丰富 而 复杂 的 信息 ， 并 且 对 于 实时 决策 是 至 关 重要 的 。 与 典型 的 时 空 数据 挖掘 相 比 ， 控 据 物 
联 数据 需要 把 当前 环境 与 大 型 信息 库 相 联系 ， 进 行 实时 计算 并 准时 返回 响应 。 该 领域 的 研究 
包括 物 联 数据 流 中 稀有 事件 检测 和 异常 分 析 ， 物 联 数据 分 析 的 可 靠 性 和 可 信 性 ， 物 联网 中 有 
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效 的 时 空 数 据 分 析 ， 以 及 数据 流 挖 掘 与 实时 自动 控制 过 程 的 集成 。 

4. 挖掘 多 媒体 数据 

多 媒体 数据 挖 气 是 从 多 媒体 数据 库 中 发 现 有 趣 的 模式 。 多 媒体 数据 库存 储 和 管理 大 量 多 
媒体 对 象 ， 包 括 图 像 数据 、 视 频数 据 、 音 频数 据 ， 以 及 序列 数据 和 包含 文本 、 文 本 标记 和 链 
接 的 超 文本 数据 。 多 媒体 数据 挖 据 是 一 个 交叉 学 科 领 域 ， 涉 及 图 像 处 理 和 理解 、 计 算 机 视 
觉 、 数 据 挖 掘 和 模式 识别 。 多 媒体 数据 挖掘 的 问题 包括 基于 内 容 的 检索 和 相似 性 搜索 、 泛 化 
和 多 维 分 析 。 多 媒体 数据 立方 体 包含 关于 多 媒体 信息 的 附加 的 维和 度量 。 多 媒体 挖掘 的 其 他 
课题 包括 分 类 和 预测 分 析 、 挖 气 关 联 、 可 视 和 听觉 数据 挖 气 (13.2.3 4), 

5. 挖掘 文本 数据 

文本 挖 据 是 一 个 交叉 学 科 领 域 ， 涉 及 信息 检索 、 数 据 控 掘 、 机 器 学 习 、 统 计 学 和 计算 语 
言 学 。 大 量 信息 都 以 文本 形式 存储 ， 如 新 闻 稿 件 、 科 技 论文 、 书 籍 、 数 字 图 书馆 、email 消 
息 、 博 客 和 网 页 。 因 此 ， 文 本 挖掘 研究 非常 活跃 ， 其 重要 目标 是 从 文本 中 导出 高 质量 的 信 
息 。 通常 ， 这 通过 诸如 统计 模式 学 习 、 主 题 建 模 和 统计 学 语言 建 模 等 手段 发 现 模 式 和 趋势 来 
实现 。 文 本 挖 拨 通 常 需要 对 输入 文本 结构 化 (例如 ， 分解 ， 伴 随 一 些 导 出 的 语言 特征 的 添 
加 和 其 他 成 分 的 删除 ， 以 及 随后 插入 到 数据 库 中 ) 。 随 后 ， 在 结构 化 的 数据 中 导出 模式 ， 并 
且 评 估 和 和 解释 输出 。 文 本 挖掘 的 “高 质量 ”通常 是 指 相 关 性 、 新 颖 性 和 有 趣 性 。 

典型 的 文本 挖掘 任务 包括 文本 分 类 、 文 本 聚 类 、 概 念 / 实 体 提 取 、 分 类 系统 产生 、 观 点 
分 析 、 文 档 摘 要 、 实 体 关 系 建 模 〈 即 学 习 命名 实体 之 间 的 关系 )。 其 他 例子 包括 多 语言 数据 
挖掘 、 多 维 文本 分 析 、 上 下 文 文本 挖掘 、 文 本 数据 的 信任 和 演变 分 析 ， 以 及 文本 挖掘 在 安 
全 、 生 物 医 学 文献 分 析 、 在 线 媒 体 分 析 、 客 户 关系 管理 方面 的 应 用 。 在 学 院 、 开 源 论坛 和 业 
界 都 有 各 种 类 型 的 文本 挖掘 与 分 析 软 件 和 工具 可 供 使 用 。 文 本 挖掘 还 常常 使 用 WordNet、Se- 
matic Web, Wikipedia 和 其 他 信息 源 ， 以 增强 文本 数据 的 理解 和 控 掘 。 

6. #38 Web 数据 

对 于 新 闻 、 广 告 、 消 费 信息 、 财 经 管理 、 教 育 、 行 政 管理 和 电子 商务 来 说 ， 万 维 网 是 一 
个 巨大 的 、 广 泛 分 布 的 全 球 信息 中 心 。 它 包含 丰富 、 动 态 的 信息 ， 涉 及 带 有 超 文 本 结构 和 多 
媒体 的 网 页 内 容 、 超 链接 信息 、 访 问 和 使 用 信息 ， 为 数据 挖掘 提供 了 丰富 的 资源 。Web 控 
据 是 数据 挖掘 技术 的 应 用 ， 从 Web 中 发 现 模式 、 结 构 和 知识 。 根 据 分 析 目 标 ，Web 控 掘 可 
以 划分 成 三 个 主要 领域 : Web ASU, Web 结构 挖 握 和 Web 使 用 挖掘。 

Web 内 容 挖 据 分 析 诸如 文本 、 多 媒体 数据 和 结构 数据 (网 页 内 或 链接 的 网 页 间 ) 等 
Web 内 容 ， 以 便 理 解 网 页 内 容 ， 提 供 可 伸缩 的 和 富 含 信息 的 基于 关键 词 的 页 面 索 引 、 实 体 / 
概念 分 辨 、 网 页 相关 性 和 秩 评 定 、 网 页 内 容 摘 要 ， 以 及 与 Web 搜索 和 分 析 有 关 的 其 他 有 价 
值 的 信息 。 网 页 可 能 驻 留 在 表层 网 (surface web) 或 深层 网 (deep web) 中 。 表 层 网 是 万 维 
网 的 一 部 分 ， 可 以 由 典型 的 搜索 引 敬 索引。 深层 网 〈 或 隐藏 网 ) 是 指 万 维 网 的 内 容 ， 它 不 
是 表层 网 的 一 部 分 ， 它 的 内 容 由 基础 数据 库 引 擎 提供 。 

Web 内 容 挖 气 已 经 被 研究 人 员 Web 搜索 引擎 和 其 他 Web 服务 公司 广泛 研究 。Web 内 
容 挖掘 可 以 为 个 人 构建 跨越 多 个 网 页 的 链接 ， 因 此 有 可 能 不 适当 地 泄露 个 人 信息 。 保 护 个 人 
隐私 的 数据 挖掘 研究 设法 解决 这 一 问题 ， 开 发 保护 个 人 网 上 隐私 的 技术 。 

Web 结构 挖掘 使 用 图 和 网 络 挖掘 的 理论 和 方法 来 分 析 网 上 的 节点 和 链接 结构 。 它 由 网 
上 的 超 链 接 提取 模式 ， 其 中 超 链接 是 一 种 结构 化 成 分 ， 它 把 一 个 网 页 连接 到 另 一 个 位 置 。 它 
还 可 以 挖掘 页 面 内 文档 结构 (例如 ， 分 析 页 面 结构 的 树 状 结构 ， 描 述 HTML 或 XML 标签 用 
法 )。 两 种 Web 结构 挖掘 都 有 助 于 理解 Web 内 容 ， 并 且 还 可 能 帮助 把 Web 内 容 转换 成 相对 
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结构 化 的 数据 集 。 

Web 使 用 挖掘 是 从 服务 器 日 志 中 提取 有 用 的 信息 〈 如 用 户 点 击 流 ) 的 过 程 。 它 发 现 与 
一 般 或 特定 用 户 组 群 有 关 的 模式 ， 理 解 用 户 的 搜索 模式 、 趋 势 和 关联 ， 预 测 什么 用 户 正 在 因 
特 网 上 搜寻 。 这 有 助 于 提高 搜索 效率 和 效果 ， 也 有 助 于 在 正确 的 时 间 向 不 同 用 户 组 群 推销 产 
品 或 相关 信息 。Web 搜索 公司 例 行 地 进行 Web 使 用 挖掘 ， 以 便 提 高 它们 的 服务 质量 。 

7. 挖掘 数据 流 

流 数据 是 指 大 量 流 入 系统 、 动 态 变化 的 、 可 能 无 限 的 ， 并 且 包 含 多 维特 征 的 数据 。 这 种 
数据 不 能 存放 在 传统 的 数据 库 系统 中 。 此 外 ， 大 部 分 系统 可 能 只 能 顺序 读 一 次 流 数据 。 这 对 
有 效 地 控 据 流 数据 提出 了 巨大 挑战 。 大 量 研 究 已 经 导致 开发 流 数 据 挖掘 的 有 效 方法 在 以 下 各 
方面 取得 进展 : 挖掘 频繁 模式 和 序列 模式 、 多 维 分 析 (例如 ， 流 立方 体 构建 )、 分 类 、 吐 
类 、 离 群 点 分 析 和 数据 流 中 稀有 事件 的 联机 检测 。 其 一 般 原理 是 ， 使 用 有 限 的 计算 和 存储 容 
量 开发 一 遍 或 多 遍 打 描 算法 。 

这 包括 在 滑动 窗口 或 倾斜 时 间 窗 口 (其 中 ， 最 近 的 数据 在 最 细 的 粒度 存放 ， 而 越久 的 
数据 在 越 粗 的 粒度 存放 ) 中 收集 关于 流 数据 的 信息 ， 探 索 像 微 聚 类 、 有 限 聚 集 和 近似 解 这 
样 的 技术 。 许 多 流 数据 挖掘 应 用 都 可 以 探索 一 一 例如 ， 计 算 机 网 络 交通 、 伪 尸 网 络 ( bot- 
nets) 、 文 本 流 、 视 频 流 、 电 网 流 、Web 搜索 、 传 感 器 网 络 和 物 联网 系统 的 实时 异常 检测 。 


13.2 ”数据 挖掘 的 其 他 方法 
由 于 数据 挖掘 范围 很 广 ， 有 很 多 不 同 的 数据 挖掘 方法 ， 本 书 不 可 能 覆盖 数据 挖掘 的 所 有 





方法 。 本 节 ， 我 们 简略 地 讨论 一 些 在 本 书 
前 面 各 章 没 有 充分 讨论 的 有 趣 方法 。 这 些 
方法 列举 在 图 13.3 中 。 


13. 2. 1 统计 学 数据 控 扣 


本 书 介绍 的 数据 挖掘 技术 主要 取 自 计 
算 机 科学 学 科 ， 包 括 数据 挖 气 、 机 器 学 习 、 
数据 仓库 和 算法 。 它 们 中 在 有 效 地 处 理 大 
量 数据 ， 这 些 数据 通常 是 多 维 的 ， 可 能 具 
有 各 种 复杂 类 型 。 然 而 ， 对 于 数据 分 析 ， 
特别 是 数值 数据 分 析 ， 还 有 一 些 得 到 确认 
的 统计 学 技术 。 这 些 技术 已 经 被 广泛 地 应 
用 到 某 些 科学 数据 〈 例 如 ， 物 理学 、 工 程 、 
制造 业 、 心 理学 和 医学 的 实验 数据 ) ， 以 及 
经 济 或 社会 科学 数据 。 其 中 一 些 技术 ， 如 






maya 
By RERE 
图 方差 分 析 
量 混合 效应 异型 
u 因素 分 析 


a 
nug" 


mE 数据 归 约 
可 数据 压缩 

各 概率 统计 理论 

量 微观 经 济 学 观点 

加 模式 发 现 和 归纳 数据 库 


四 数据 可 视 化 
m 数据 挖掘 结果 可 视 化 
m 数据 挖掘 过 程 可 视 化 
里 交互 式 可 视 数据 挖掘 
里 听觉 数据 挖掘 



























Me Dy BH Ot Be SE et 











可 视 与 听觉 
数据 挖掘 


图 13.3 其 他 数据 挖掘 方法 






主 成 分 分 析 (第 3 章 ) MEX (第 10 章 和 第 11 章 ) 已 在 本 书 讲 过 。 对 数据 分 析 的 主要 统 
计 方 法 的 透彻 讨论 超出 了 本 书 的 范围 ; 但 是 ， 为 了 完整 性 起 见 ， 这 里 我 们 还 是 提 及 一 些 方 
法 。 这 些 技术 的 线索 在 文献 注释 中 给 出 (13. 8 节 )。 


。 回归 ; 一 般 地 说 ， 这 些 方法 用 来 由 一 


个 或 多 个 预测 〈 独 立 ) 变量 预测 一 个 响应 ( 依 


H) 变量 的 值 ， 其 中 变量 都 是 数值 的 。 有 各 种 不 同形 式 的 回归 ， 如 线性 的 、 多 元 
的 、 加 权 的 、 多 项 式 的 、 非 参数 的 和 和 鲁 棒 的 〈 当 误 差 不 满 足 常 规 条 件 ， 或 者 数据 包 
含 显著 的 离 群 点 时 ， 重 棒 的 方法 是 有 用 的 ) 。 


385 


[598 | 


386 - 第 13 章 数据 挖掘 的 发 展 趋 势 和 研究 前 沿 


o 广义 线性 模型 (generalized linear models): 这 些 模型 和 它们 的 推广 (广义 加 法 模型 ) 

599 允许 一 个 分 类 的 〈 标 称 的 ) 响应 变量 (或 它 的 某 种 变换 ) 以 使 用 线性 回归 对 数值 响 

应 变量 建 模 类 似 的 方式 ， 与 一 系列 预测 变量 相关 。 广 义 线性 模型 包括 逻辑 斯 详 回 归 
(logistic regression) 和 泊 松 回归 (Poisson regression) 。 

e 方差 分 析 (analysis of variance): 这 些 技术 分 析 由 一 个 数值 响应 变量 和 一 个 或 多 个 分 
类 变量 ( 因素) 描述 的 两 个 或 多 个 总 体 的 实验 数据 。 一 般 地 说 ,一 个 ANOVA ( 方 
差 的 单 因 素 分 析 ) 问题 涉及 上 个 总 体 或 处 理 方法 的 比较 ， 决 定 是 否 至 少 有 两 种 方法 
是 不 同 的 。 也 存在 更 复杂 的 ANOVA 问题 。 

。 混合 效应 模型 (mixed-effect model); 这些 模 型 用 来 分 析 分 组 数据 一 一 可 以 根据 一 个 
或 多 个 分 组 变量 分 类 的 数据 。 通 常 ， 它 们 根据 一 个 或 多 个 因素 来 描述 一 个 响应 变量 
和 一 些 相关 变量 之 间 的 关系 。 应 用 的 公共 领域 包括 多 层 数据 、 重 复 测 量 数据 、 分 组 
实验 设计 和 纵向 数据 。 

© 因素 分 析 (factor analysis); 这 种 方法 用 来 决定 哪些 变量 组 合 产生 一 个 给 定 因素 。 例 如 ， 

对 许多 精神 病 学 数据 ， 不 可 能 直接 测量 某 个 感 兴 趣 的 因素 (如 智能 ) ; 然而， 测量 反映 该 

感 兴趣 因素 的 其 他 量 (如 学 生 考试 成 绩 ) 是 可 能 的 。 这 里 没有 指定 依赖 变量 。 

判别 式 分 析 (discriminant analysis): 这 种 技术 用 来 预测 一 个 分 类 的 响应 变量 。 与 广 

义 线性 模型 不 同 ， 它 假定 独立 变量 服从 多 元 正 态 分 布 。 该 过 程 试图 决定 多 个 判别 式 

函数 〈 独 立 变量 的 线性 组 合 ) ， 区 别 由 响应 变量 定义 的 组 。 判 别 式 分 析 在 社会 科学 

中 普遍 使 用 。 

e 生存 分 析 (survival analysis): 有 一 些 得 到 确认 的 统计 技术 用 于 生存 分 析 。 这 些 技术 
起 初 用 于 预测 一 个 病人 经 过 治疗 后 能 够 或 至 少 可 以 生存 到 时 间 : 的 概率 。 然 而 ， 生 
存 分 析 的 方法 也 常常 用 于 设备 制造 ， 估 计 工 业 设备 的 生命 周期 。 流 行 的 方法 包括 
Kaplan- Meier 生存 估计 、Cox 比例 风险 回归 模型 以 及 它们 的 扩展 。 

。 质量 控制 (quality control): 各 种 统计 法 可 以 用 来 为 质量 控制 准备 图 表 ， 例 如 She- 
whart 图 表 和 CUSUM 图 表 (都 用 于 显示 组 汇总 统计 量 )。 这 些 统计 量 包括 均值 、 标 
准 差 、 极 差 、 计 数 、 移 动 平 均 、 移 动 标准 差 和 移动 极 差 。 


13.2.2 关于 数据 挖 所 基础 的 观点 


关于 数据 挖掘 理论 基础 的 研究 还 不 成 熟 。 坚 实 而 系统 的 理论 基础 非常 重要 ， 因 为 它 可 以 为 
L600] 数据 挖掘 技术 的 开发 、 评 价 和 实践 提供 一 个 一 致 的 框架 。 关 于 数据 挖掘 基础 的 一 些 理论 包括 ; 

© 数据 归 约 〈data reduction): 在 这 种 理论 下 ， 数 据 挖掘 的 基础 是 简化 数据 表示 。 数 据 
归 约 以 牺牲 准确 性 换取 速度 ， 以 适应 快速 得 到 大 型 数据 库 上 的 查询 的 近似 回答 的 要 
求 。 数 据 归 约 技术 包括 奇异 值 分 解 〈 主 成 分 分 析 的 推动 因素 ) 、 小 波 、 回 归 、 对 数 
线性 模型 、 直 方 图 、 聚 类 、 抽 样 和 索引 树 的 构造 。 

© 数据 压缩 (data compression): 根据 这 一 理论 ， 数 据 挖掘 的 基础 是 通过 位 编码 、 关 联 
规则 、 决 策 树 、 聚 类 等 压缩 给 定数 据 。 根 据 最 小 描述 长 度 原理 ， 从 一 个 数据 集 推导 
出 来 的 “最 好 ”理论 是 这 样 的 理论 ， 使 用 该 理论 作为 数据 的 预测 器 ， 它 最 小 化 理论 
和 数据 的 编码 长 度 。 典 型 的 编码 是 以 二 进位 为 单位 的 编码 。 

© 概率 统计 理论 (probability and statistical theory): 根据 这 一 理论 ， 数 据 挖 掘 的 基础 是 
发 现 随 机 变量 的 联合 概率 分 布 。 例 如 ， 贝 叶 斯 信念 网 络 或 层次 贝 叶 斯 模型 。 

。 微观 经 济 学 观点 (microeconomic view): 微观 经 济 学 观点 把 数据 按揭 看 做 发 现 模式 
的 任务 ， 这 些 模式 仅 当 能 够 用 于 企业 的 决策 过 程 〈 例 如 ,市场 决策 和 生产 计划 ) A 
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是 有 趣 的 。 这 种 观点 是 功利 主义 的 : 能 起 作用 的 模式 才 被 认为 是 有 趣 的 。 企 业 被 看 
做 面 对 优 化 的 问题 ， 其 目标 是 最 大 化 决策 的 作用 或 价值 。 在 这 种 理论 下 ， 数 据 挖掘 
变 成 一 个 非 线性 优化 问题 。 

e 模式 发 现 和 归纳 数据 库 (pattem discovery and inductive databases); 在 这 种 理论 下 ， 
数据 挖掘 的 基础 是 发 现 出 现在 数据 中 的 模式 ， 如 关联 、 分 类 模型 、 序 列 模式 等 。 诸 
如 机 器 学 习 、 神 经 网 络 、 关 联 挖掘 、 序 列 模式 挖 据 、 聚 类 和 一 些 其 他 子 领域 都 促成 
这 一 理论 。 知 识 库 可 以 看 做 由 数据 和 模式 组 成 的 数据 库 。 用 户 通 过 查询 知识 库 中 的 
数据 和 定理 〈 即 模式 ) 与 系统 交互 。 这 里 ， 知 识 库 实际 上 是 一 个 归纳 数据 库 。 

这 些 理论 不 是 相互 排斥 的 。 例 如 ， 模 式 发 现 也 可 以 看 做 是 数据 归 约 或 数据 压缩 的 一 种 形 
式 。 理 想 地 ， 一 个 理论 框架 应 该 能 够 对 典型 的 数据 挖掘 任务 (BR, KK. RAR) 
进行 建 模 ， 具 有 概率 性 质 ， 能 够 处 理 不 同形 式 的 数据 ,并 且 考 虑 数据 挖 据 的 迭代 和 交互 本 
质 。 建 立 一 个 能 够 满足 这 些 要 求 的 定义 良好 的 数据 挖掘 框架 还 需要 进一步 努力 。 


13.2.3 ”可 视 和 听觉 数据 挖掘 

可 视 数 据 挖掘 (visual data mining) 使 用 数据 和 知识 可 视 化 技术 ， 从 大 型 数据 集中 发 现 
隐 含 的 和 有 用 的 知识 。 人 们 的 视觉 系统 是 由 眼睛 和 大 脑 控制 的 ， 后 者 可 看 做 一 个 强 有 力 并 且 
高 度 并 行 的 处 理 和 推理 引擎 ， 包 含 一 个 大 型 知识 库 。 可 视 数 据 挖掘 把 这 些 强大 的 组 件 组 合 起 
来 ， 使 它 成 为 非常 吸引 人 的 有 效 工 具 ， 用 来 理解 数据 分 布 、 模 式 、 簇 和 离 群 点 。 

可 视 数据 挖掘 可 看 做 两 个 学 科 的 融合 ， 数据 可 视 化 和 数据 挖掘 。 它 与 计算 机 图 形 学 、 多 
媒体 系统 、 人 机 交互 、 模 式 识别 、 高 性 能 计算 都 密切 相关 。 一 般 地 说 ， 数 据 可 视 化 和 数据 挖 
据 可 以 从 以 下 方面 进行 融合 : 

© 数据 可 视 化 : 数据 库 或 数据 仓库 中 的 数据 可 看 做 处 于 不 同 的 粒度 或 抽象 层 ， 或 处 于 

不 同属 性 或 维 组 合 。 数 据 可 以 用 多 种 可 视 化 形式 表示 ， 如 盒 图 、 三 维 立方 体 、 数 据 
分 布 图 表 、 曲 线 、 曲 面 、 链 接 图 等 ， 如 2. 3 节 所 示 。 图 13. 4 和 图 13. 5 取 自 StatSoft， 
显示 多 维 空间 中 的 数据 分 布 。 可 视 化 显示 有 助 于 用 户 对 大 型 数据 集中 的 数据 特征 形 
成 清晰 的 印象 和 总 体 看 法 。 
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图 1 13.4 StatSoft i 中 显示 多 变量 组 合 的 盒 图 。 源 于 w www. statsoft. com 
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图 13.5 StatSoft 中 的 多 维 数据 分 布 分 析 。 源 自 www. statsoft. com 


。 数据 挖 握 结 果 可 视 化 : 数据 挖掘 结果 可 视 化 是 指 以 可 视 化 形式 提供 数据 控 气 得 到 的 
结果 或 知识 。 这 些 形式 可 能 包括 散 点 图 和 盒 图 (第 2 章 ) ， 以 及 决策 树 、 关 联 规则 、 
E., BRA. MAUS. Bon, B 13.6 显示 SAS Enterprise Miner 的 散 点 图 。 
图 13.7 取 自 MiniSet， 用 与 一 些 方 柱 相关 联 的 平面 描述 从 数据 库 中 控 据 的 关联 规则 的 
集合 。 13.8 也 取 自 MiniSet， 表 示 一 棵 决策 树 。 图 13. 9 取 自 IBM Intelligent Miner, 
提供 艇 的 集合 以 及 与 其 相关 的 属性 。 
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图 13.6 SAS Enterprise Miner 中 数据 挖掘 结果 可 视 化 
。 数据 挖掘 过 程 可 视 化 : 这 种 可 视 化 用 可 视 化 形式 描述 各 种 挖掘 过 程 ， 使 得 用 户 可 以 
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看 出 如 何 提取 数据 ， 从 哪个 数据 库 或 数据 仓库 中 提取 数据 ， 以 及 被 选择 的 数据 如 何 
清理 、 集 成 、 预 处 理 和 挖掘 。 此 外 ， 它 还 可 以 显示 选用 了 哪 种 数据 挖掘 方法 ， 结 果 
存储 在 何 处 ， 以 及 如 何 观察 。 图 13. 10 显示 了 Clementine 数据 挖掘 系统 的 一 个 可 视 
数据 控 掘 过 程 。 
。 交互 式 可 视 数据 挖 据 : 在 交互 式 可 视 数 据 挖 据 中， 可 以 在 数据 挖掘 过 程 中 使 用 可 视 
化 工具 ， 帮 助 用 户 做 出 明智 的 数据 挖掘 决策 。 例 如 ， 一 组 属性 的 数据 分 布 可 以 用 着 
色 的 扇 区 显示 〈 其 中 ， 整 个 空间 用 一 个 圆 表示 ) 。 这 种 显示 可 以 帮助 用 户 决定 为 了 
分 类 应 当 首 先 选择 哪个 扇 区 ， 对 于 该 扇 区 最 好 的 分 裂 点 在 哪里 。 一 个 例子 显示 在 
图 13. 11 中 ， 它 是 慕尼黑 大 学 开发 的 基于 感知 的 分 类 (了 Perception- Based Classifica- 
tion, PBC) 系统 的 输出 。 
听觉 数据 挖掘 (audio data mining) 用 音频 信号 来 指示 数据 的 模式 或 数据 挖掘 结果 的 特 
征 。 尽 管 可 视 数据 挖掘 使 用 图 形 显 示 能 够 揭示 一 些 有 趣 的 模式 ， 但 它 要 求 用 户 全 神 贯 注 地 观 
察 模 式 ， 并 确定 其 中 有 趣 的 或 新 颖 的 特征 ， 因 此 有 时 是 令 人 厌倦 的 。 如 果 能 够 将 模式 转换 成 
声音 和 音乐 ， 那 么 就 可 以 通过 听 音 调 、 节 奏 、 曲 调和 旋律 ， 而 不 是 看 图 片 ， 来 确定 有 趣 的 或 
不 同 寻常 的 东西 。 这 种 方式 可 能 减轻 视觉 关注 的 负担 ， 比 可 视 控 掘 更 轻松 。 因 此 ， 听 觉 数据 
挖掘 是 对 可 视 数 据 挖掘 的 一 种 有 趣 补 充 。 








Acme Inc. 
图 13.8 MineSet 中 决策 树 可 视 化 


390 


第 13 章 ”数据 挖掘 的 发 展 趋势 和 研究 前 沿 





© (nicilioent Minor - AU Cluaters View 1 


Bent © Eat Yew Onion 





rm in 




















See fh eee ee ee y EERE y ap 














Train Met raiesse | Table 


D work in progress 
D) work in progress 
LD) work in progress 
D work in progress 





aan os 


13. 11 基于 感知 的 分 类 ， 一 种 交互 式 可 视 化 挖掘 方法 
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13.3 ”数据 挖掘 应 用 

本 书 ， 我 们 研究 了 挖 据 关 系数 据 、 数 据 仓 库 和 复杂 数据 类 型 的 原理 和 方法 。 由 于 数据 挖 
掘 是 一 个 相对 年 轻 的 学 科 ， 具 有 广泛 的 应 用 ， 因 此 数据 挖掘 的 一 般 原 理 与 针对 特定 应 用 的 有 
效 数 据 挖掘 工具 之 间 还 存在 不 小 的 距离 。 本 节 ， 我 们 考察 几 个 应 用 领域 ， 列 举 在 图 13. 12 
中 。 我 们 讨论 如 何 为 这 些 应 用 开发 定制 的 数据 挖掘 方法 。 


13.3.1 金融 数据 分 析 的 数据 挖 据 


大 部 分 银行 和 金融 机 构 都 提供 丰富 多 样 的 银行 业务 、 投 资 和 信贷 服务 (后 者 包括 交易 、 
抵押 、 汽 车 贷款 和 信用 卡 )。 有 些 还 提供 保险 
服务 和 股票 投资 服务 。 
银行 和 金融 机 构 收 集 的 金融 数据 通常 相对 
完整 、 可 靠 ， 并 具有 高 质量 ， 这 大 大 方便 了 系 
统 的 数据 分 析 和 数据 挖掘 。 下 面 给 出 几 种 典型 
情况 。 
。 为 多 维 数据 分 析 和 数据 挖掘 设计 和 构 
造 数 据 仓 库 : 与 许多 其 他 应 用 类 似 ， 
需要 为 银行 和 金融 数据 构造 数据 仓库 。 
应 当 使 用 多 维 数 据 分 析 方 法 来 分 析 这 图 13.12 常见 的 数据 挖掘 应 用 领域 
种 数据 的 一 般 性 质 。 例 如 ， 公 司 的 财务 人 员 可 能 希望 按 月 、 按 地 区 、 按 部 门 以 及 按 
其 他 因素 查看 债务 和 收益 的 变化 ， 同 时 希望 提供 最 大 、 最 小 、 总 和 、 平 均值 和 其 他 
统计 信息 。 数 据 仓 库 、 数 据 立方 体 ( 包 括 高 级 的 数据 立方 体 ， 如 多 特征 和 发 现 驱 动 
的 、 回 归 和 预测 数据 立方 体 ) 、 特 征 化 和 比较 、 聚 类 和 离 群 点 分 析 等 都 会 在 金融 数 
据 分 析 和 挖掘 中 发 挥 重 要 作用 。 
。 贷款 偿还 预测 和 顾客 信用 政策 分 析 : 贷款 偿还 预测 和 顾客 信用 分 析 对 银行 业务 来 说 
是 至 关 重 要 的 。 很 多 因素 都 可 能 或 多 或 少 地 影响 贷款 偿还 履行 和 顾客 信用 等 级 评定 。 
数据 挖掘 方法 ， 如 特征 选择 和 属性 相关 性 评定 ， 可 能 有 助 于 识别 重要 因素 ， 剔 除 不 
相关 因素 。 例 如 ， 与 贷款 偿还 风险 相关 的 因素 包括 担保 品 贷 放 率 、 贷 款 期 限 、 负 债 
率 〈 月 负债 总 额 与 月 收入 总 额 之 比 ) 、 货 款 支 付 与 收入 比 、 顾 客 收入 水 平 、 受 教育 
水 平 、 居 住地 区 和 信用 史 。 分 析 顾 客 偿还 史 信 息 可 以 发 现 ， 比 如 说 ， 货 款 支 付 与 收 
和信 比 是 主要 因素 ， 而 受 教育 水 平和 负债 率 则 不 是 。 于 是 ， 银 行 可 以 据 此 调整 贷款 发 
放 政策 ， 以 便 将 贷款 发 放 给 那些 申请 以 前 曾 被 拒绝 ， 但 根据 关键 因素 分 析 ， 其 基本 
信息 表明 风险 相对 较 低 的 顾客 。 
。 针对 定向 促销 的 顾客 分 类 与 聚 类 : 分 类 和 聚 类 的 方法 可 用 于 顾客 群 识别 和 定向 促销 。 
例如 ， 可 以 使 用 分 类 识别 可 能 影响 顾客 关于 银行 业务 决策 的 最 重要 因素 。 使 用 多 维 
聚 类 技术 ， 可 以 识别 对 贷款 偿还 具有 类 似 行为 的 顾客 。 这 些 可 能 帮助 我 们 识别 出 顾 
客 群 ， 把 新 顾客 归 到 一 个 合适 的 顾客 群 ， 推 动 定向 促销 。 
。 洗 黑钱 和 其 他 金融 犯罪 的 侦破 : 为 了 侦破 洗 黑钱 和 其 他 金融 犯罪 ， 重 要 的 是 要 把 多 
个 异种 数据 库 ( 例 如， 银行 交 易 数据 库 、 联 邦 或 州 的 犯罪 历史 数据 库 ) 中 的 信息 集 
成 起 来 ， 只 要 这 些 数 据 可 能 与 侦破 工作 有 关 。 然 后 ， 可 以 使 用 多 种 数据 分 析 工 具 来 
检测 异常 模式 ， 如 在 某 段 时 间 内 ， 通 过 某 些 人 发 生 的 大 量 现金 流动 。 有 用 的 工具 包 
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括 数据 可 视 化 工具 〈 用 图 形 的 方式 按时 间 和 按 顾客 群 显示 交易 活动 ) 、 链 接 和 信息 
网 络 分 析 工 具 (识别 不 同 顾 客 和 活动 之 间 的 联系 )、 分 类 工具 (过滤 不 相关 的 属性 ， 
对 高 度 相关 属性 归 类 ) 、 聚 类 分 析 工 具 〈 将 不 同 案例 分 组 ) 、 离 群 点 分 析 工 具 〈 检 测 
异常 的 资金 转移 量 或 其 他 行为 ) 、 序 列 模式 分 析 工 具 〈 刻 画 异 常 访问 模式 的 特征 )。 
这 些 工具 可 以 识别 活动 的 重要 联系 和 模式 ， 帮 助 调查 人 员 为 进一步 详细 调查 聚焦 可 
疑 线索 。 


13.3.2 ”零售 和 电信 业 的 数据 挖 气 


零售 业 是 非常 合适 的 数据 挖掘 应 用 领域 ， 因 为 它 收集 了 关于 销售 、 顾 客 购 物 史 、 货 物 运 
输 、 消 费 和 服务 的 大 晤 数据。 特别 是 ， 由 于 通过 Web 或 电子 商务 上 进行 的 商业 活动 日 益 方 
便 和 流行 ， 收 集 的 数据 量 继续 迅速 膨胀 。 今 天 ， 大 部 分 较 大 的 连锁 店 都 有 自己 的 网 站 ， 顾 客 
可 以 方便 地 联机 购买 商品 。 有 些 企业 ， 如 Amazon. com (http: //www. amazon. com) ， 只 有 联 
机 商店 而 没有 实体 〈 即 物理 的 ) 商场 。 零 售 数据 为 数据 挖掘 提供 了 丰富 的 资源 。 

零售 数据 挖掘 可 以 帮助 识别 顾客 购买 行为 ， 发 现 顾客 购物 模式 和 趋势 ， 改 进 服 务 质量 ， 
取得 更 好 的 顾客 保持 度 和 满意 度 ， 提 高 货品 消费 比 ， 设 计 更 好 的 货品 运输 与 分 销 策略 ， 降 低 
企业 成 本 。 | 

以 下 给 出 零售 业 中 的 几 个 数据 挖掘 的 例子 。 

。 数据 仓库 的 设计 与 构造 :由 于 零售 数据 覆盖 面 广 (包括 销售 、 顾 客 、 雇 员 、 货 物 运 
输 、 消 费 和 服务 ) ， 所 以 设计 数据 仓库 存在 许多 方式 ， 所 包含 的 细节 级 别 也 可 能 变 
化 很 大 。 可 以 使 用 事先 的 数据 挖 据 演练 结果 来 指导 数据 仓库 结构 的 设计 和 开发 。 这 
涉及 决定 包括 哪些 维和 层 ， 以 及 为 保证 有 效 的 数据 控 据 应 该 进行 哪些 预 处 理 。 

° 销售、 顾客、 产品、 时 间 和 地 区 的 多 维 分 析 : 零售 业 需 要 关于 顾客 需求 、 产 品 销售 、 
趋势 和 时 尚 ， 以 及 日 用 品 的 质量 、 价 格 、 利 泣 和 服务 的 及 时 人 信息。 因此， 提供 功 能 
强大 的 多 维 分 析 和 可 视 化 工具 是 十 分 重要 的 ， 这 包括 根据 数据 分 析 的 需要 构造 复杂 
的 数据 立方 体 。 第 5 章 介绍 的 高 级 数据 立方 体 结构 在 零售 数据 分 析 中 是 有 用 的 ， 因 
为 它 方便 了 复杂 条 件 上 的 多 维 聚 集 分 析 。 

。 促销 活动 的 效果 分 析 : 零售 业经 常 通过 广告 、 优 惠 券 、 各 种 折扣 和 让 利 的 方式 展开 
促销 活动 ， 以 达到 提高 产品 销售 和 吸引 顾客 的 目的 。 仔 细 分 析 促销 活动 的 效果 有 助 
于 提高 公司 利润 。 通 过 比较 促销 期 间 与 促销 活动 前 后 的 销售 量 和 交易 量 ， 多 维 分 析 
可 以 用 于 该 目的 。 此 外 ， 关 联 分 析 可 以 找 出 哪些 商品 可 能 随 降价 商品 一 同 购买 ， 特 
别 是 与 促销 活动 前 后 的 销售 相 比 。 

。 顾客 保有 一 一 顾客 忠诚 度 分 析 : 可 以 使 用 会 员 卡 信息 记录 特定 顾客 的 购买 序列 。 可 
以 系统 地 分 析 顾 客 的 忠诚 度 和 购买 趋势 。 同 一 位 顾客 在 不 同时 期 购买 的 商品 可 以 聚 
集成 序列 ， 然 后 可 以 使 用 序列 模式 挖掘 研 究 顾 客 的 消费 或 忠诚 度 的 变化 ， 据 此 对 价 
格 和 商品 的 品种 加 以 调整 ， 以 便 留 住 老 顾客 ， 吸 引 新 顾客 。 

。 产品 推荐 和 商品 的 交叉 推荐 : 通过 从 销售 记录 中 挖掘 关联 信息 ， 可 以 发 现 购买 数码 
相机 的 顾客 很 可 能 购买 男 一 组 商品 。 这 类 信息 可 用 于 形成 产品 推荐 。 协 同 推荐 系统 
( 见 13. 3. 5 节 ) 使 用 数据 控 气 技术， 在 顾客 交易 时 根据 其 他 顾客 的 意见 产生 个 性 化 
的 产品 推荐 。 产 品 推荐 也 可 在 销售 收据 、 每 周 广告 传单 或 Web 上 宣传 ， 以 便 改 进 顾 
客服 务 ， 帮 助 顾客 选择 商品 ， 并 提高 销售 额 。 类 似 地 ， 诸 如 “本 周 热 销 商品 ”之 类 
的 信息 或 有 吸引 力 的 处 理 也 可 以 与 相关 信息 一 同 发 布 ， 以 达到 促销 的 目的 。 
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© 欺骗 分 析 和 异常 模式 识别 : 欺骗 行 为 每 年 导致 零售 业 损失 数 百 万 美元 。 重 要 的 是 : 
(1) 识别 可 能 的 欺骗 者 和 他 们 的 习惯 模式 ;(2) 检测 通过 欺骗 进入 或 未 经 授权 访问 
个 人 或 组 织 账户 的 企图 ; (3) 发 现 可 能 需要 特别 注意 的 不 寻常 模式 。 这 些 模 式 多 半 
都 可 以 通过 多 维 分 析 、 育 类 分 析 和 离 群 点 分 析 发 现 。 


作为 男 一 个 处 理 大 量 数据 的 产业 ,电信 业 已 经 迅速 地 从 单纯 的 提供 市 话 和 长 话 服 务 演变 


为 提供 其 他 综合 电信 和 服务。 这些 服 务 包 括 蜂 窝 电话 、 智 能 电话 、 因 特 网 访问 、 电 子 邮 件 、 短 
信 、 计 算 机 和 Web 数据 传输 ， 以 及 其 他 数据 通信 服务 。 电 信 、 计 算 机 网 络 、 因 特 网 和 各 种 
”其 他 通信 和 计算 工具 的 集成 正在 进行 中 ， 正 在 改变 通信 和 和 计算 的 面貌 。 这 就 迫切 需要 数据 挖 
所 技术 ， 以 便 帮助 理解 商业 动向 、 识 别 电 信 模 式 、 捕 提 盗 用 行为 、 更 好 地 利用 资源 和 提高 服 
务 质量 。 

电信 业 的 数据 挖掘 任务 与 零售 业 有 许多 相似 之 处 。 共 同 任务 包括 构造 大 型 数据 仓库 、 进 
行 多 维 可 视 化 、OLAP、 深 层 趋势 、 客 户 模式 和 序列 模式 分 析 。 这 些 任 务 有 助 于 提升 业务 、 
降低 成 本 、 留 住 客户 、 分 析 欺 诈 和 提高 竞争 力 。 对 于 许多 数据 挖掘 任务 ， 专 门 为 电信 业 开 发 
的 数据 挖掘 工具 正在 与 日 俱 增 ,， 并 且 可 望 扮演 日 趋 重要 的 角色 。 

数据 挖掘 已 经 在 许多 其 他 产业 界 广泛 使 用 ， 如 保险 业 、 制 造 业 、 卫 生 保 健 业 ， 还 用 于 政 
府 和 公共 管理 数据 的 分 析 。 尽 管 每 个 产业 都 有 自己 特有 的 数据 集 和 应 用 需求 ， 但 是 它们 共享 
许多 共同 的 原理 和 方法 。 因 此 ， 通 过 一 个 产业 的 有 实效 的 挖掘， 我 们 可 以 获得 可 以 迁移 到 其 
他 产业 应 用 的 经 验 和 方法 。 


13.3.3 ”科学 与 工程 数据 挖 搁 


以 前 ， 许 多 科学 数据 分 析 任 务 主 要 是 处 理 相 对 较 小 的 、 同 构 的 数据 集 。 通 常 ， 使 用 
“提出 假设 、 构 建 模型 和 评价 结果 ”的 方式 来 分 析 这 样 的 数据 。 在 这 些 情况 下 ， 统 计 学 技术 
通常 用 来 分 析 这 些 数据 ( 见 13. 2. 1 节 )。 近 来 ,数据 收集 和 存储 技术 的 进步 已 经 改变 了 科 
学 数据 分 析 的 这 种 状况 。 今 天 ， 我 们 可 以 以 更 高 的 速度 和 更 低 的 代价 来 收集 科学 数据 。 这 导 
BUY 包含 丰富 时 间 和 空间 信息 的 高 维 数据 、 流 数据 和 蜡 构 数据 的 海量 积累 。 因 此 ， 科 学 应 用 
不 再 是 “假设 -检验 ”的 方式 ， 而 是 逐渐 转向 “收集 和 存储 数据 ， 挖 振 新 的 假设 ， 通 过 数 
据 或 实验 证 实 ”的 过 程 。 这 种 转变 对 数据 挖掘 带 来 了 新 的 挑战 。 

使 用 精密 的 望远镜 、 多 谱 高 分 辩 率 的 卫星 遥感 器 、 全 球 定位 系统 和 新 一 代 的 生物 学 数据 
采集 和 分 析 技 术 ， 不 同 的 科学 领域 (包括 地 球 科学 、 天 文学 、 气 象 学 、 地 质 学 和 生物 科学 ) 
收集 了 海量 的 数据 。 由 于 各 个 领域 的 快速 数字 模拟 ， 如 气候 和 生态 模型 、 化 学 工程 、 流 体 动 
力学 和 结构 力学 的 数字 模拟 ， 也 产生 了 大 型 数据 集 。 本 节 ， 我 们 考虑 新 兴 的 科学 应 用 为 数据 
挖掘 带 来 的 一 些 挑战 。 

。 数据 仓库 和 数据 预 处 理 : 数据 预 处 理 和 数据 仓库 对 于 信息 交换 和 数据 挖掘 是 至 关 重 

要 的 。 创 建 数据 仓库 需要 解决 找 出 一 种 方法 ， 解 决 不 同时 间 在 不 同 环境 下 收集 的 数 

， ， 据 的 不 一 致 或 不 兼容 问题 。 这 需要 调整 语义 、 参 照 系 、 几 何 体系 、 测 量 结果 、 准 确 
率 和 精度 。 需 要 集成 异种 数据 源 的 数据 (比如 覆盖 不 同时 间 周 期 的 数据 ) 和 识别 事 
件 的 方法 。 

例如 ,考虑 气候 和 生态 数据 ， 它 们 是 空间 的 和 时 间 的 ， 并 且 需 要 对 照 地 理 数据 。 分 析 这 
类 数据 的 主要 问题 是 空间 域 中 的 事件 太 多 ， 而 时 间 域 中 的 事件 太 少 。 例如， 厄尔尼诺 事件 每 
4 ~7 年 才 发 生 一 次 ， 并 且 以 往 的 数据 可 能 并 没有 像 今 天 这 样 系统 地 收集 。 需 要 有 效 的 方法 
计算 复杂 的 空间 聚集 和 处 理 空 间 相 关 的 数据 流 。 
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。 挖掘 复杂 的 数据 类 型 : 科学 数据 在 本 质 上 是 异种 的 ， 通 常 包括 半 结 构 化 的 和 非 结 构 
化 的 数据 ， 如 多 媒体 数据 和 地 理 参 照 的 流 数据 ， 以 及 具有 复杂 的 、 深 藏 语义 的 数据 
(如 染色 体 和 蛋白质 数据 ) 。 需 要 鲁 棒 的 和 专门 的 方法 来 处 理 时 间 空 间 数据 、 生 物 学 
数据 、 相 关 概 念 分 层 和 复杂 的 语义 联系 。 例 如 ， 在 生物 信息 学 中 ， 一 种 搜索 问题 是 
识别 基因 的 调节 影响 。 基 因 调 节 是 指 细胞 中 的 基因 打开 (或 关闭 ) 如 何 决定 细胞 的 
功能 。 不 同 的 生物 进程 涉及 不 同 的 、 以 精确 调节 的 模式 一 起 起 作用 的 基因 组 。 因 此 ， 
为 了 理解 生物 进程 ， 需 要 识别 参与 基因 和 它们 的 调节 。 这 需要 开发 复杂 的 数据 挖掘 
方法 来 分 析 大 型 生物 数据 集 ， 通 过 找 出 促成 这 种 影响 的 DNA 片段 (“调节 序列 ” )， 
为 特定 基因 上 的 调节 影响 提供 线索 。 

。 基于 图 和 网 络 的 挖 握 : 由 于 现 有 建 模 方法 的 局 限 性 ， 常 常 很 难 甚至 不 可 能 对 多 个 物 
理 现象 和 过 程 建 模 。 而 有 标号 的 图 和 网 络 可 以 用 来 捕捉 科学 数据 集 上 的 空间 、 拓 扑 、 
几何 和 其 他 关系 特性 。 在 图 或 网 络 模型 中 ， 每 个 被 挖掘 的 对 象 用 图 中 的 一 个 顶点 表 
示 ， 而 顶点 之 间 的 边 表示 对 象 之 间 的 联系 。 例 如 ， 可 以 使 用 图 对 化 学 结构 、 生 物 路 


[612] 径 和 通过 数字 模拟 〈 如 流体 流量 的 模拟 ) 产生 的 数据 建 模 。 然 而 ， 图 或 网 络 建 模 的 
成 功 依赖 于 许多 传统 数据 挖 所 方法 〈 如 分 类 、 频 繁 模式 挖 所 和 聚 类 ) 在 可 伸缩 性 和 
效率 上 的 改进 。 . 


。 可 视 化 工具 和 特定 领域 的 知识 : 对 于 科学 数据 挖掘 系统 ， 需 要 高 级 图 形 用 户 界面 和 
可 视 化 工具 。 这 些 工具 应 该 与 现 有 的 特定 领域 的 信息 系统 集成 在 一 起 ， 指 导 研 究 人 
员 和 一 般 用 户 搜索 模式 ， 解 释 和 可 视 化 已 发 现 的 模式 ， 在 决策 中 使 用 发 现 的 知识 。 
工程 上 的 数据 挖 据 与 科学 上 的 数据 挖掘 具有 许多 类 似 之 处 。 两 者 都 需要 收集 海量 数据 ， 
需要 数据 预 处 理 ， 建 立 数据 仓库 和 复杂 数据 类 型 的 可 伸缩 的 控 据 。 通 常 ， 两 者 都 使 用 可 视 
化 ， 利 用 图 和 网 络 。 此 外 ,许多 工程 过 程 需 要 实时 响应 ， 因 此 实时 挖 拨 数 据 流通 常 成 为 关键 
组 件 。 

大 量 通信 数据 注 人 我 们 的 日 常生 活 。 这 种 通信 在 万 维 网 和 各 种 社区 网 上 以 多 种 形式 存 
在 ， 包 括 新 闻 、 博 客 、 文 章 、 网 页 、 在 线 讨论 、 产 品评 论 、 嘿 嘻 ( twitters) 、 消 息 、 广 告 和 
通信 。 因 此 ， 社 会 科学 和 社会 研究 数据 挖掘 已 经 日 趋 流行 。 此 外 ， 可 以 分 析 用 户 或 读者 关于 
产品 、 讲 演 和 文章 的 反馈 ， 以 推断 社团 的 一 般 观点 和 意见 。 这 种 分 析 可 以 用 来 预测 趋势 、 改 
进 工作 、 帮 助 决策 。 

计算 机 科学 产生 了 独一无二 的 数据 。 例 如 ， 计 算 机 程序 可 能 很 长 ， 并 且 它 的 执行 通常 产 
生 很 长 的 踪迹 。 计 算 机 网 络 可 以 具有 复杂 的 结构 ， 并 且 网 络 流量 可 能 是 动态 的 、 海 量 的 。 传 
感 器 网 络 可 能 产生 大 量具 有 不 同 可 靠 性 的 数据 。 计 算 机 系统 和 数据 库 可 能 遭受 各 种 攻击 ， 它 
们 的 系统 /数据 访问 可 能 提升 了 对 安全 和 隐私 的 关注 。 这 些 独 特 的 数据 为 数据 挖掘 提供 了 肥 
沃 的 土壤 。 

计算 科学 中 的 数据 挖掘 可 以 用 来 帮助 监测 系统 状态 、 提 高 系统 性 能 、 隔 离 软 件 错误 、 检 
测 软件 剿 窃 、 分 析 计 算 机 系统 缺陷 、 发 现 网 络 人 侵 和 识别 系统 故障 。 软 件 和 系统 工程 的 数据 
挖掘 可 以 在 静态 或 动态 〈 基 于 流 的 ) 数据 上 进行 ， 取 决 于 系统 是 否 为 之 后 的 分 析 提 前 印 载 
跟踪 ， 或 者 是 否 必须 实时 反应 ， 处 理 联 机 数据 。 

在 此 领域 中 ,已 经 开发 了 各 种 方法 ， 它 们 集成 和 扩充 来 自 机 器 学 习 、 数 据 挖掘 、 软 件 / 
系统 工程 、 模 式 识别 和 统计 学 的 已 有 方法 。 对 于 数据 挖掘 者 而 言 ， 由 于 它 的 独特 性 ， 计 算 机 
科学 的 数据 挖 据 也 是 一 个 活跃 的 、 多 产 的 领域 ， 需 要 进一步 开发 复杂 的 、 可 伸缩 的 和 实时 的 

数据 挖掘 和 软件 /系统 工程 方法 。 
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13.3.4 ”入 侵 检 测 和 预防 数据 挖掘 
计算 机 系统 和 数据 安全 一 直 处 于 危险 中 。 互 联网 的 大 规模 增长 ， 各 种 入 侵 和 攻击 网 络 工 
具 和 手段 的 出 现 ， 使 得 入 侵 检 测 和 预防 成 为 网 络 系统 的 关键 组 成 部 分 。 入 侵 可 以 定义 为 威胁 
网 络 资源 (如 用 户 账号 、 文 件 系统 、 系 统 内 核 等 ) 的 完整 性 、 机 密 性 或 可 用 性 的 行为 。 入 
侵 检测 系统 和 人 侵 预 防 系 统 都 监测 网 络 流量 和 系统 运行 ， 以 发 现 亚 意 活动 。 然 而 ， 前 者 是 产 
生 报 告 ， 后 者 是 在 线 的 并 且 能 够 实际 地 阻止 检测 到 的 人 侵 。 人 侵 预 防 系统 的 主要 功能 是 识别 
晋 意 行为 ， 把 这 些 行为 的 信息 记 人 日 志 ， 试 图 阻止 /停止 恶意 活动 并 报告 这 些 活动 。 
多 数 人 侵 检 测 和 预防 系统 都 使 用 基于 特征 的 检测 或 基于 异常 的 检测 。 
© 基于 特征 的 检测 (signature-based detection): 这 种 检测 方法 利用 特征 。 特 征 〈signa- 
ture) 是 由 领域 专家 预先 配置 和 确定 的 攻击 模式 。 基 于 特征 的 人 侵 预 防 系统 监测 网 
络 流量 ， 寻 找 与 这 些 特 征 的 匹配 。 一 且 找 到 匹配 ， 人 侵 检 测 系 统 就 报告 异常 ， 而 人 
侵 预 防 系统 就 采取 相应 的 行动 。 注 意 ， 由 于 系统 通常 是 动态 的 ， 因 此 只 要 新 的 软件 
版 本 出 现 ， 或 者 网 络 配置 改变 ， 或 者 其 他 情况 出 现 ， 就 需要 很 费劲 地 对 特征 进行 更 
新 。 此 外 ， 另 一 个 缺点 是 ， 这 种 检测 机 制 只 能 识别 与 特征 匹配 的 人 侵 。 也 就 是 说 ， 
它 不 能 识别 新 的 或 先前 未 知 的 入 侵 诡 计 。 
。 基于 异常 的 检测 (anomaly-based detection): 这 种 方法 构造 正常 网 络 行为 的 模型 ( 称 
为 轮 廊 ) ， 用 来 检测 显著 地 偏离 该 轮廓 (profile) 的 新 模式 。 这 种 偏离 可 能 代表 实际 
人 侵 ， 也 可 能 只 是 一 种 需要 添加 到 轮廓 中 的 新 行为 。 异 常 检测 的 主要 优点 是 ， 它 可 
能 检测 到 以 前 未 观察 到 的 新 人 侵 。 通 常 ， 分 析 人 员 必 须 对 偏离 分 类 ， 以 便 确定 哪些 
代表 真正 的 入 侵 。 异 常 检测 的 一 个 局 限 是 较 高 的 假 报警 。 可 以 把 新 的 人 侵 模 式 添加 
到 特征 集中 ， 以 加 强 基 于 特征 的 检测 。 
数据 挖掘 方法 可 以 以 多 种 方式 帮助 人 侵 检 测 和 预防 系统 加 强 性 能 。 
。 适用 于 入 侵 检 测 的 新 的 数据 挖掘 算法 : 数据 挖掘 算 法 可 以 用 于 基于 特征 和 基于 异常 
的 检测 。 在 基于 特征 的 检测 中 ， 训 练 数据 被 标记 为 “正常 ”或 “入 侵 ”"。 于 是 ， 可 
以 导出 一 个 分 类 模型 来 检测 已 知 的 入侵 。 该 领域 的 研究 包括 使 用 分 类 算法 、 关 联 规 
则 挖掘 和 代价 敏感 建 模 。 基 于 异常 的 检测 构建 正常 行为 模型 ， 并 检测 显著 偏离 它 行 
为 。 方 法 包括 使 用 聚 类 、 离 群 点 分 析 、 分 类 算法 和 统计 学 方法 。 所 使 用 的 技术 必须 
是 有 效 的 和 可 伸缩 的 ， 并 且 能 够 处 理 大 量 的 、 高 维 的 和 异种 的 网 络 数据 。 
。 关联 、 相 关 和 有 区 别 力 的 模式 分 析 帮 助 选择 和 构建 有 区 别 力 的 分 类 器 : 关联、 相关 
和 有 区 别 力 的 模式 挖掘 可 以 用 来 发 现 描述 网 络 数据 的 系统 属性 之 间 的 联系 。 这 种 信 
息 有 助 于 为 人 侵 检 测 选 择 有 用 的 属性 。 由 聚集 数据 导出 的 新 属性 ， 如 匹配 特定 模式 
的 流量 汇总 ， 可 能 也 是 有 用 的 。 
。 流 数 据 分 析 : 由 于 入侵 和 恶意 攻击 的 瞬时 性 和 动态 性 ， 在 流 数 据 环境 下 进行 人 侵 检 
测 是 非常 关键 的 。 此 外 ， 一 个 事件 自身 可 能 是 正常 的 ， 但 是 如 果 看 做 事件 序列 的 一 
部 分 ， 则 被 认为 是 恶意 的 。 因 此 ， 有 必要 研究 什么 样 的 事件 序列 频繁 地 遇 到 ， 发 现 
序列 模式 并 识别 离 群 点 。 对 于 实时 人 侵 检 测 ， 还 需要 其 他 的 数据 挖掘 方法 ， 如 发 现 
数据 流 中 的 演化 徐 (evolving cluster) 和 建立 数据 流 的 动态 分 类 模型 。 
。 分 布 式 数据 挖掘 : 入 侵 可 以 从 多 个 不 同位 置 发 动 并 指向 许多 不 同 目标 。 可 以 使 用 分 
布 式 数 据 挖掘 方法 ， 从 多 个 网 络 位 置 分 析 网 络 数据 ， 以 便 检 测 这 种 分 布 式 攻击 。 
。 可 视 化 和 查询 工具 : 应 当 有 观察 检测 到 的 异常 模式 的 可 视 化 工具 。 这 类 工具 可 能 包 
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括 观 察 关 联 、 有 区 别 力 的 模式 、 艇 和 离 群 点 的 特征 。 人 侵 检测 系统 应 当 具 备 图 形 用 
户 界面 ， 允 许 安 全 分 析 人 员 对 网 络 数据 或 人 侵 检测 结果 提出 查询 。 
总 之 ， 计 算 机 系统 一 直 处 于 安全 性 被 破坏 的 危险 之 中 。 可 以 使 用 数据 控 据 技术 ， 开 发 强 
大 的 人 侵 检测 和 预防 系统 。 这 种 系统 可 以 使 用 基于 特征 或 基于 异常 的 检测 。 


13.3.5 ”数据 挖 揭 与 推荐 系统 


今天 的 消费 者 在 线 购物 时 会 面 对 成 千 上 万 的 商品 与 服务 。 推 荐 系统 帮助 消费 者 ， 向 用 户 
推荐 他 们 可 能 感 兴趣 的 产品 ， 如 书 、CD 、 电 影 、 饭 店 、 网 上 新 闻 和 其 他 服务 。 推 荐 系统 可 
能 使 用 基于 内 容 的 方法 、 协 同方 法 或 者 结合 基于 内 容 和 协同 方法 的 混合 方法 。 

基于 内 容 的 方法 推荐 用 户 喜 爱 的 或 者 以 前 询问 过 的 类 似 商 品 。 它 依赖 产品 的 特征 和 文字 
说 明 。 协 同方 法 (或 协同 过 滤 方 法 ) 可 能 考虑 用 户 的 社会 环境 。 它 根据 与 用 户 有 类 似 情趣 
和 爱好 的 其 他 顾客 的 意见 推荐 商品 。 推 荐 系统 广泛 采用 信息 检索 、 统 计 学 、 机 器 学 习 和 数据 
挖掘 技 术 在 商品 和 顾客 爱好 中 搜索 相似 的 对 象 。 考 虑 下 面 的 例子 。 

例 13.1 使 用 推荐 的 场景 。 假 设 你 访问 一 个 在 线 书 店 的 网 站 (例如 ， 亚 马 孙 ( Ama- 
zon) ) ， 打 算 购 买 一 本 你 一 直 想 读 的 书 。 你 输入 书 名 。 这 并 不 是 你 第 一 次 访问 这 个 网 站 。 上 
个 圣诞 节 你 浏览 过 该 网 站 ， 甚 至 买 过 书 。 这 个 网 上 书店 记得 你 以 往 的 访问 ， 存 放 了 你 的 点 击 
流 信息 和 以 前 的 购买 信息 。 系 统 向 你 显示 你 指定 的 书 的 介绍 和 价格 ， 同 时 把 你 和 与 你 兴趣 相 
似 的 顾客 进行 比较 ， 并 推荐 其 他 书目 , “ 买 了 你 指定 的 书 的 顾客 也 会 买 其 他 这 些 书 。” 通 过 
浏览 推荐 的 书 的 列表 ， 你 会 看 到 另外 一 本 引起 你 兴趣 的 书 ， 并 决定 购买 。 

现在 ， 假 设 你 到 另外 一 个 在 线 商店 ， 打 算 购买 数码 相机 。 系 统 根据 以 往 挖掘 的 序列 模 
式 ， 如 “和 买 了 这 种 数码 相机 的 顾客 很 可 能 会 在 三 个 月 内 购买 菜 种 品牌 的 打印 机 、 存 储 卡 或 
照片 编辑 软件 " ， 向 你 推荐 其 他 的 产品 。 你 决定 只 买 数码 相机 ， 不 再 买 其 他 物品 。 一 个 星期 
后 你 会 从 这 个 商店 收 到 其 他 物品 的 优惠 券 。 m 

推荐 系统 的 一 个 优势 是 它们 为 电子 商务 顾客 提供 个 性 化 服务 ， 促 进 一 对 一 的 销售 。 亚 马 
进 是 使 用 协同 推荐 系统 的 先驱 ， 作 为 市 场 战 略 的 一 部 分 ， 提 供 “ 针 对 每 位 顾客 的 个 性 化 商 
店 ”。 个 性 化 有 益 于 消费 者 和 公司 双方 。 拥 有 顾客 更 正确 的 模型 ， 公 司 可 以 对 顾客 的 需求 有 
更 好 的 了 解 。 而 服务 于 这 些 需 求 则 可 在 交叉 销售 、 提 升 销售 、 产 品 亲和力 、 一 对 一 促销 、 大 
购物 篮 、 顾 客 保 有 方面 获得 巨大 的 成 功 。 

推荐 问题 考虑 顾客 的 集合 C 和 产品 的 集合 So Su 是 效用 函数 ， 度 量 产品 * 对 顾客 c 的 
有 用 性 。 效 用 通常 用 等 级 表示 ， 并 且 初 始 只 对 先前 被 用 户 评定 过 等 级 的 产品 有 定义 。 例 如 ， 
当 连 接 电 影 推荐 系统 时 ， 通 常 要 求 用 户 对 一 些 电影 评定 等 级 。 所 有 可 能 的 用 户 和 产品 的 空间 
CxS 是 巨大 的 。 为 了 预测 产品 用 户 组 合 ， 推 荐 系统 应 当 能 够 从 已 知 的 等 级 评定 推断 未 知 的 ， 
以 便 预测 产品 用 户 组 合 。 对 用 户 而 言 ， 具 有 最 高 等 级 评定 /效用 的 产品 推荐 给 该 用 户 。 

“如 何 为 用 户 估计 产品 的 效用 ?” 在 基于 内 容 的 方法 中 ， 根 据 同 -- 用 户 赋予 其 他 类 似 产 
名 的 效用 来 估计 。 许 多 这 样 的 系统 都 致力 于 推荐 包含 文字 信息 的 产品 ， 如 Web 站 点 、 文 章 
和 新 闻 消 息 。 它 们 寻找 产品 的 共性 。 对 于 电影 ， 它 们 寻找 类 似 的 风格 、 导 演 或 演员 。 对 于 文 
章 ， 它 们 寻找 类 似 的 术语 。 基 于 内 容 的 方法 植 根 于 信息 论 。 它 们 使 用 关键 词 〈 描 述 产品 ) 
和 包含 关于 用 户 品味 和 需求 信息 的 用 户 轮 廊 。 这 种 轮廓 可 以 明确 地 得 到 (例如 ， 通 过 问卷 
调查 ) 或 从 用 户 的 长 期 交易 行为 中 学 习 。 

协同 推荐 系统 试图 基于 与 用 户 u 类 似 的 其 他 用 户 先前 对 产品 的 等 级 评定 来 预测 产品 对 u 
的 效用 。 例 如 ， 在 推荐 书籍 时 ， 协 同 推荐 系统 试图 找到 曾经 与 4 一 致 的 其 他 用 户 ( 例 如， 
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他 们 购买 类 似 的 书籍 ， 或 者 对 书籍 给 出 类 似 的 等 级 评定 ) 。 协 同 推荐 系统 可 以 是 基于 记忆 的 
(或 基于 启发 式 的 ) ， 或 者 基于 模型 的 。 

基于 记忆 的 方法 本 质 上 使 用 启发 式 ， 基 于 先前 被 用 户 评定 等 级 的 产品 集 进 行 等 级 评定 巴 
测 。 也 就 是 说 ， 产 品 - 用 户 组 合 的 未 知 等 级 可 以 用 大 部 分 类 似 用 户 对 相同 产品 的 等 级 评定 的 
聚集 来 估计 。 典 型 地 ， 使 用 上 -近邻 方法 ， 即 找 出 与 目标 用 户 ， 最 相似 的 上 个 其 他 用 户 (或 
近邻 ) 。 许 多 方法 都 可 以 用 来 计算 用 户 之 间 的 相似 性 。 最 常用 的 方法 是 使 用 Pearson 相关 系 
数 (3. 3.2 节 ) 或 余弦 相似 性 〈2.4. 7 节 ) 。 可 以 使 用 加 权 聚 集 进行 调整 ， 因 为 不 同 的 用 户 
可 能 使 用 不 同 的 等 级 评定 尺度 。 基 于 模型 的 协同 推荐 系统 使 用 等 级 评定 集 学 习 模 型 ， 然 后 使 
用 模型 进行 等 级 评定 预测 。 例 如 ， 概 率 模型 、 聚 类 ( 发现 具 有 相似 意向 的 顾客 能) 、 贝 叶 斯 
网 络 和 其 他 机 器 学 习 技 术 都 已 经 被 使 用 。 

推荐 系统 面临 的 主要 挑战 包括 可 伸缩 性 和 确保 推荐 质量 。 例 如 ， 就 可 伸缩 性 而 言 ， 推 荐 
系统 必须 能 够 实时 地 搜索 数 百 万 可 能 的 近邻 。 如 果 站 点 使 用 浏览 模式 作为 产品 偏爱 的 指示 ， 
则 对 于 它 的 某 些 顾客 ， 它 可 能 有 数 以 千 计 的 数据 点 。 为 了 赢得 顾客 的 信任 ， 确 保 推 荐 质量 是 
至 关 重要 的 。 如 果 消 费 者 接受 系统 推荐 ， 但 最 终 找 不 到 喜爱 的 产品 ， 则 他 们 就 不 太 愿意 再 使 
用 推荐 系统 。 

与 分 类 系统 一 样 ， 推 荐 系统 可 能 有 两 类 错误 : 假 负 例 和 假 正 例 。 这 里 ， 假 负 例 是 系统 未 
能 推荐 的 产品 ， 尽 管 消费 者 可 能 喜欢 它们 。 假 正 倒是 推荐 的 产品 ， 但 是 消费 者 并 不 喜欢 。 候 
正 例 更 不 可 取 ， 因 为 它们 可 能 打搅 或 激怒 消费 者 。 基 于 内 容 的 推荐 系统 受 限于 描述 被 推荐 的 
产品 的 特征 。 对 于 基于 内 容 和 协同 推荐 而 言 ， 另 一 个 挑战 是 如 何 处 理 尚 无 购物 史 的 新 用 户 。 

混合 方法 集成 基于 内 容 的 方法 和 协同 方法 ， 进 一 步 改 善 推荐 性 能 。Netflix 奖 是 由 一 家 在 
R DVD 租借 服务 资助 的 公开 竞赛 ， 奖 金 100 万 美元 ， 征 求 最 好 的 推荐 算法 ， 基 于 先前 的 等 
级 评定 预测 用 户 对 电影 的 等 级 评定 。 这 个 竞赛 和 其 他 研究 表明 ， 当 混合 多 个 预测 器 ， 特 别 是 
当 使 用 多 个 显著 不 同方 法 的 组 合 预测 器 而 不 是 精炼 单一 技术 时 ， 推 荐 系统 的 预测 准确 率 可 以 
显著 提高 。 

协同 推荐 系统 是 一 种 智能 查询 回答 形式 ， 包 括 分 析 查 询 的 意图 ， 并 提供 与 查询 相关 的 信 
息 。 例 如 ， 与 简单 地 返回 图 书 描述 和 价格 以 响应 用 户 查询 相 比 ， 返 回 与 查询 相关 但 并 未 明显 
提 及 的 附加 信息 〈 如 ， 书 评 、 其 他 图 书 推荐 或 销售 统计 ) 对 同样 的 查询 提供 了 更 智能 的 
回答 。 


13.4 数据 挖 据 与 社会 

对 于 大 多 数 人 ， 数 据 挖掘 是 日 常生 活 的 一 部 分 ， 虽然 我 们 常常 没有 意识 到 它 的 存在 。 
13. 4. 1 节 考 察 儿 个 “ 普 适 的 和 无 形 的 ”数据 挖掘 的 例子 。 它 影响 日 常生 活 的 方方面面 ， 从 
当地 超市 供应 的 商品 、 网 上 冲浪 看 到 的 广告 ， 到 犯罪 预防 。 通 常 ， 通 过 改进 服务 和 提高 顾客 
满意 度 ， 以 及 生活 方式 ， 数据 挖掘 能 够 为 个 人 带 来 许多 好 处 。 然 而 ， 它 也 会 严重 地 威胁 到 个 
人 隐私 权 和 数据 安全 。 这 些 问题 是 13.4.2 节 的 主题 。 


13.4.1 普 适 的 和 无 形 的 数据 挖掘 


数据 挖掘 出 现在 我 们 日 常生 活 的 许多 方面 ， 无 论 我 们 是 否 意 识 到 它 的 存在 。 它 影响 到 我 
们 如 何 购物 、 工 作 和 搜索 信息 ， 甚 至 影响 到 我 们 的 休闲 、 健 康 和 幸福 。 本 节 ， 我 们 考察 这 种 
普 适 的 (ubiquitous) 数据 挖掘 的 例子 。 其 中 一 些 例子 也 体现 了 无 形 的 (invisible) 数据 挖 
据 。 有 些 “ 聪 明 的 ”软件 ， 如 Web 搜索 引擎 、 顾 客 自 适 应 的 Web 服务 (例如 ， 使 用 推荐 算 
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法 )、“ 智 能 ”数据 库 系统 、 电 子 邮件 管理 器 、 票 务 大 师 等 ， 都 把 数据 挖 据 结 合 到 它们 的 功 
能 组 件 中 ， 却 常常 不 为 用 户 所 知晓 。 

从 零售 店 在 顾客 收据 上 打印 的 个 性 化 优惠 券 ， 到 在 线 商 店 根据 顾客 兴趣 推荐 的 相关 物 
品 ， 数 据 挖 据 以 标新立异 的 方式 对 我 们 购买 的 物品 、 购 物 的 方式 以 及 购物 的 体验 产生 了 影 
响 。 以 沃尔玛 为 例 ， 每 周 大 约 有 数 亿 顾客 访问 它 的 超过 上 万 家 商场 。 沃 尔 玛 允许 供应 商 访 问 
有 关 他 们 产品 的 数据 ， 并 使 用 数据 挖掘 软件 对 其 分 析 。 这 样 ， 供 应 商 可 以 识别 顾客 在 不 同 商 
场 的 购买 模式 ， 控 制 库存 和 商品 布局 ， 并 获得 新 的 商机 。 所 有 这 些 将 会 最 终 影响 何 种 〈 和 
多 少 ) 产品 摆 在 商场 的 货架 上 ， 这 是 下 一 次 你 经 过 沃尔玛 的 过 道 时 可 能 考虑 的 商品 。 

数据 挖掘 对 在 线 购物 的 体验 也 产生 了 影响 。 许 多 购物 者 习惯 于 在 线 购买 书籍 、 音 乐 、 电 
影 和 玩具 。13. 3.5 节 讨 论 的 推荐 系统 根据 其 他 顾客 的 评价 提供 个 性 化 的 产品 推荐 。Ama- 
zon. com 走 在 最 前 列 ， 使 用 个 性 化 的 、 基 于 数据 挖掘 的 方法 作为 经 营 战略 。 它 观察 到 ， 传 统 
实体 商店 的 最 大 困难 在 于 让 顾客 走 进 商店 。 一 旦 顾客 进来 ， 他 就 可 能 买 一 些 东 西 ， 因为 去 另 
一 家 商店 花费 的 时 间 值 得 考虑 。 因 此 ， 传统 实体 商店 的 销售 策略 注重 把 顾客 吸引 进来 ， 而 不 
是 他 们 在 店内 的 体验 。 这 不 同 于 在 线 商 店 ， 那 里 顾客 只 需要 点 一 下 鼠标 就 “走出 ” 并 进入 
另 一 家 在 线 商店 。Amazon. com 利用 了 这 一 差别 ， 提 供 了 “针对 每 位 顾客 的 个 性 化 商店 ”。 
他 们 使 用 了 一 些 数据 挖掘 技术 识别 顾客 的 喜好 并 做 出 可 靠 的 推荐 。 

当 我 们 谈论 购物 时 ， 假 设 你 正 使 用 信用 卡 进行 购物 。 如 今 从 信用 卡 公 司 收 到 可 疑 或 异常 
的 消费 情况 的 电话 并 不 稀奇 。 信 用 卡 公司 使 用 数据 挖掘 来 检测 欺诈 性 使 用 ， 每 年 可 以 挽回 数 
十 亿美 元 的 损失 。 

许多 公司 为 客户 关系 管理 (Customer Relationship Management, CRM) 越 来 越 多 地 使 用 
数据 挖掘 ， 这 有 助 于 取代 大 众 营销 ， 提供 更 多 定制 的 个 人 服务 来 处 理 个 体 顾 客 的 需要 。 通 过 
研究 在 网 店 上 的 浏览 和 购买 模式 ， 公司 可 以 定制 适合 顾客 特点 的 广告 和 推销 ， 使 得 顾客 较 少 
地 被 大 量 不 必要 的 邮寄 或 垃圾 邮件 所 烦 扰 。 这 些 举措 可 以 为 公司 节省 大 量 费用 。 顾 客 也 可 以 
从 中 受益 ， 因 为 他 们 经 常会 收 到 真正 感 兴趣 的 通报 ， 导 致 花 更 少 的 时 间 获 得 更 大 的 满足 。 

数据 挖掘 已 经 大 大 地 影响 了 人 们 使 用 计算 机 、 搜索 信息 和 工作 的 方式 。 例 如 ， 一 旦 你 合 
录 互 联网 ， 决 定 检查 电子 邮件 。 几 封 令 人 讨厌 的 垃圾 邮件 在 你 没 觉察 时 已 被 删除 。 这 多 亏 了 
邮件 过 滤器 ， 它 使 用 了 分 类 算法 来 识别 垃圾 邮件 。 在 处 理 完 邮件 后 ， 你 开始 使 用 Google 
(http: //www. google. com)， 它 提供 了 对 数 十 亿 个 在 它 的 服务 器 中 被 索引 页 面 的 访问 。 
Google 是 最 受 欢迎 和 广泛 使 用 的 互联 网 搜索 引擎 之 一 。 使 用 Google 搜索 信息 已 经 成 为 许多 
人 的 一 种 生活 方式 。 

Google 如 此 受 欢 迎 ， 使 得 它 甚至 成 为 一 个 新 的 英语 动词 ， 意 思 是 “使 用 Google, RAAR 
据 外 延 ， 使 用 任何 综合 搜索 引擎 在 互联 网 上 搜索 ”S。 你 决定 对 你 感 兴趣 的 话题 键入 一 些 关 
键 词 。Google 会 返回 一 个 被 包括 PageRank 在 内 的 数据 挖 气 算 法 挖 气 、 索 引 和 组 织 的 ， 你 感 
兴趣 话题 的 网 站 列表 。 如 果 你 键入 “波士顿 纽约 ”， 则 Google 将 向 你 显示 显示 从 波士顿 到 纽 
约 的 客运 汽车 和 火车 时 刻 表 。 然 而 ， 对 “波士顿 巴黎 ” 而 言 稍微 不 同 ， 将 返回 从 波士顿 到 
巴黎 的 航班 。 这 种 聪明 的 信息 或 服务 提供 可 能 基于 从 以 前 的 大 量 查询 点 击 流 中 控 据 的 频繁 
模式 。 

在 你 观察 Coogle 的 查询 结果 时 ， 各 式 各 样 与 你 的 查询 相关 的 广告 就 会 弹出 。 Google 剪 
裁 广告 使 之 符合 用 户 兴 趣 的 策略 是 被 所 有 因特网 搜索 提供 商 探索 的 典型 服务 之 一 。 这 也 可 以 
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使 你 更 快乐 ， 因 为 你 可 能 较 少 被 无 关 的 广告 所 纠缠 。 

正如 我 们 可 能 从 这 些 日 常 例子 所 看 到 的 ， 数 据 挖掘 无 处 不 在 。 我 们 可 以 不 停 地 列举 这 种 
例子 。 在 许多 情况 下 ， 数 据 挖掘 是 无 形 的 ， 因 为 用 户 可 能 并 不 知晓 他 们 正在 查看 数据 挖掘 返 
回 的 结果 ， 也 不 知晓 他 们 的 点 击 实际 上 已 经 作为 新 数据 提供 给 数据 挖掘 系统 。 为 了 使 数据 挖 
据 作 为 一 种 技术 被 进一步 改进 和 接受 ， 需 要 在 许多 领域 进行 持续 的 研究 和 开发 ， 如 贯穿 本 书 
提 到 的 挑战 。 这 些 包括 效率 和 可 伸缩 性 、 增 强 用 户 交 互 、 背 景 知识 与 可 视 化 技术 的 结合 、 发 
现 有 趣 模式 的 有 效 方法 、 改 进 复杂 数据 类 型 和 流 数 据 的 处 理 、 实 时 数据 挖掘 、Web 数据 控 
掘 等 。 此 外 ， 把 数据 挖掘 集成 到 已 有 商业 和 科学 技术 中 ， 提 供 特定 领域 的 数据 挖掘 系统 ， 将 
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有 助 于 该 技术 的 进步 。 相 对 于 一 般 的 数据 控 据 系统 ， 数 据 挖掘 在 电子 商务 应 用 领域 的 成 功 就 


是 一 个 例证 。 


13.4.2 数据 挖 据 的 隐私 、 安全 和 社会 影响 


随 着 越 来 越 多 的 信息 以 电子 形式 出 现 并 在 Web 上 可 以 访问 ， 随 着 越 来 越 强大 的 数据 挖 
掘 工 具 的 开发 和 投入 使 用 ， 人 们 越 来 越 担心 数据 挖掘 可 能 会 威胁 我 们 的 隐私 和 数据 安全 。 然 
而 ， 需 要 指出 的 是 ， 大 多 数 的 数据 挖掘 应 用 并 没有 涉及 个 人 的 数据 。 突 出 的 例子 包括 涉及 自 
然 资源 的 应 用 、 水 灾 和 干旱 的 预报 、 气 象 学 、 天 文学 、 地 理学 、 地 质 学 、 生 物 学 和 其 他 科学 
与 工程 数据 。 此 外 ， 大 多 数 的 数据 挖掘 研究 集中 在 可 伸缩 算法 的 开发 ， 也 不 涉及 个 人 数据 。 

数据 挖 据 技 术 关 注 于 一 般 模 式 或 统计 显著 的 模式 的 发 现 ， 而 不 是 关于 个 人 的 具体 信息 。 
在 这 种 意义 上 ， 我 们 相信 和 真正 的 隐私 关注 是 对 个 人 记录 不 受 限制 的 访问 ， 特 别 是 对 敏感 的 私 
有 信息 的 访问 ， 如 信用 卡 交易 记录 、 卫 生 保 健 记 录 、 个 人 理财 记录 、 生 物 学 特征 、 犯 罪 / 法 
律 调查 和 血统 。 对 于 确实 涉及 个 人 数据 的 数据 挖掘 应 用 ， 在 很 多 情况 下 ， 采 用 诸如 从 数据 中 
删除 敏感 的 身份 标识 符 的 简单 方法 就 可 以 保护 大 多 数 个 人 的 隐私 。 尽 管 如 此 ， 只 要 个 人 识别 
信息 以 数字 形式 收集 和 存放 ， 数 据 挖掘 程序 能 够 访问 这 种 数据 ( 即便 是 在 数据 准备 阶段 )， 
隐私 关注 就 会 存在 。 

不 适当 的 披露 或 没有 披露 控制 可 能 是 隐私 问题 的 根源 。 为 了 处 理 这 些 问 题 ， 已 经 开发 了 
大 量 加 强 数据 安全 人 性 的 技术 。 此 外 ， 在 开发 保护 隐私 的 数据 挖掘 方法 方面 也 做 了 大 量 的 工 
作 。 本 节 ， 我 们 考察 数据 挖掘 中 保护 隐私 和 数据 安全 方面 的 一 些 进展 。 

“在 收集 和 挖 据 数据 时 ， 我 们 能 为 保护 个 人 的 隐私 做 些 什 么 呢 ?” 人 们 开发 了 许多 数据 
安全 增强 技术 帮助 保护 数据 。 数 据 库 可 以 使 用 多 级 安全 模型 ， 根 据 不 同 的 安全 级 别 对 数据 分 
类 和 限制 ， 只 允许 用 户 访问 经 过 授权 的 安全 级 别 上 的 数据 。 然 而 ， 现 已 证 明 用 户 在 授权 的 级 
别 上 执行 特定 的 查询 仍 能 推测 出 更 敏感 的 信息 ， 并 且 类 似 的 可 能 性 在 数据 挖掘 中 也 可 能 发 
生 。 加 密 是 男 一 项 技术 ， 它 对 个 体 数据 项 进行 编码 。 这 可 能 涉及 讶 签名 (blind signatures, 
建立 在 公 钥 加 密 上 ) 、 生 物 测 定 加 密 (biometric encryption)( 例 如， 使 用 人 的 虹膜 或 指纹 对 
他 的 个 人 信息 编码 ) 、 匿 名 数据 库 (anonymous database) (允许 合并 不 同 的 数据 库 ， 但 对 个 
人 信息 的 访问 仅 限于 知道 它 的 人 ; 个 人 信息 被 加 密 并 存储 到 不 同 的 位 置 )。 入 侵 检 测 是 另 一 
个 活跃 的 研究 领域 ， 也 可 以 帮助 保护 个 人 数据 的 私有 性 。 

保护 隐私 的 数据 挖 所 (Privacy- preserving data mining) 是 一 个 数据 挖掘 研究 领域 ， 对 数 
据 挖掘 中 的 隐私 保护 做 出 反应 。 它 也 被 称 为 加 强 隐私 的 (privacy- enhanced) 或 隐私 敏感 的 
(privacy-sensitive) 数据 挖掘 。 它 的 目的 是 获得 有 效 的 数据 挖掘 结果 而 不 泄露 底层 的 敏感 数 
据 值 。 大 部 分 保护 隐私 的 数据 挖掘 都 使 用 某 种 数据 变换 来 保护 隐私 。 通 常 ， 这 些 方法 改变 表 
示 的 粒度 以 保护 隐私 。 例 如 ， 它 们 可 以 把 数据 从 个 体 顾 客 泛 化 到 顾客 群 。 粒 度 归 约 导致 信息 
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损失 ， 并 可 能 影响 数据 控 气 结果 的 有 用 性 。 这 是 信息 损失 和 隐私 之 间 的 自然 折 中 。 保 护 隐 私 
的 数据 控 据 可 以 分 成 如 下 几 类 。 
。 随机 化 方法 : 这 些 方法 把 噪声 添加 到 数据 中 ， 掩 盖 记录 的 某 些 属性 值 。 添 加 的 噪声 
应 该 足够 多 ， 使 得 个 体 记录 的 值 ， 特 别 是 敏感 的 值 不 能 恢复 。 然 而 ， 添 加 应 该 有 技 
巧 ， 使 得 最 终 的 数据 挖掘 结果 基本 保持 不 变 。 这 种 技术 旨 在 从 扰动 的 数据 中 得 到 聚 
集 分 布 。 随 后 可 以 开发 使 用 这 些 聚 集 分 布 的 数据 挖掘 技术 。 

。 -匿名 和 [- 多 样 性 方法 : 这 两 种 方法 都 是 更 改 个 人 记录 ， 使 得 它们 不 可 能 被 唯一 地 
识别 。 在 广 匿名 (h-anonymity) 方法 中 ， 数 据 表示 的 粒度 被 显著 归 约 ， 使 得 任何 给 
定 的 记录 至 少 映 射 到 数据 集中 上 个 其 他 记录 上 。 它 使 用 像 聚 集 和 压缩 这 样 的 技术 。 
马 放 名 是 有 缺陷 的 ， 因 为 如 果 一 个 群 内 的 敏感 数据 是 同 质 的 ， 则 这 些 值 可 以 从 更 改 
后 的 记录 推出 。/- 多 样 性 (1-diversity〉 模型 通过 加 强 组 内 敏感 值 的 多 样 性 以 确保 匿 
名 来 克服 这 一 缺点 。 其 目标 是 使 对 手 使 用 记录 属性 的 组 合 准确 地 识别 个 体 记 录 足 够 
困难 。 

分 布 式 隐私 保护 : 大 型 数据 集 通常 被 水 平 〈 即 数据 集 被 划分 成 不 同 的 记录 子 集 并 分 
布 在 多 个 站 点 上 ) 或 重 直 〈 即 数据 集 按 属性 划分 和 分 布 ) 或 同时 水 平和 垂直 划分 和 
分 布 。 尽 管 个 体 站 点 并 不 想 共享 它 们 的 整个 数据 集 ， 但 是 它们 可 能 通过 各 种 协议 允 
许 有 限 的 信息 共享 。 这 种 方法 的 总 体 效果 是 在 导出 整个 数据 集 的 聚集 结果 的 同时 ， 
维护 个 体 对 象 的 隐私 。 

降低 数据 挖掘 结果 的 作用 : 在 许多 情况 下 ， 尽 管 可 能 得 不 到 数据 ， 但 是 数据 挖掘 的 
输出 例如， 关联 规则 、 分 类 模型 也 可 能 导致 侵害 隐私 。 解 决 方案 可 能 是 通过 修 
改 数 据 或 稍微 扭曲 分 类 模型 ， 降 低 数 据 挖掘 的 作用 。 

BO, 研究 人 员 提 出 了 保护 隐私 的 数据 挖掘 的 新 思想 ， 如 差 动 隐私 (differential priva- 
cy) 概念 。 其 一 般 思想 是 ， 对 于 两 个 非常 接近 的 数据 集 ( 即 仅 在 一 个 极 小 的 数据 集 上 不 同 ， 
如 在 单个 元 素 上 不 同 ) ， 给 定 的 差 动 隐私 算法 在 两 个 数据 集 上 的 行为 近似 相同 。 这 个 定义 确 
保 极 小 的 数据 集 〈 例 如 ， 代 表 个 人 ) 的 缺失 与 否 不 会 显著 地 影响 查询 结果 的 输出 。 基 于 这 
一 概念 ， 已 经 开发 了 一 组 差 动 隐私 保护 的 数据 挖掘 算法 。 这 一 方向 的 研究 正在 进行 ， 期 望 在 
不 久 的 将 来 会 有 更 好 的 隐私 保护 数据 和 数据 挖掘 算 法 发 表 。 

像 其 他 的 技术 一 样 ， 数 据 挖掘 可 能 被 滥用 。 然 而 ， 我 们 不 能 忽视 数据 挖掘 研究 给 我 们 带 
来 的 好 处 : 从 医药 和 科学 应 用 中 获得 的 认识 ， 到 通过 帮助 公司 更 好 地 迎合 顾客 的 需求 来 提高 
硕 客 的 满意 度 。 我 们 期 望 计算 机 科学 家 、 政 策 专家 和 反 丽 专家 会 继续 与 社会 科学 家 、 律 师 、 
公司 以 及 顾客 共同 担负 起 责任 ， 建 立 保护 数据 隐私 和 安全 的 解决 方案 。 这 样 ， 我 们 可 以 继续 
收获 数据 挖掘 带 来 的 好 处 时 间 和 人 金钱 的 节省 、 新 知识 的 发 现 。 


13.5 ”数据 挖 所 的 发 展 趋势 


数据 、 数 据 挖掘 任务 和 数据 挖掘 方法 的 多 样 性 对 数据 挖掘 提出 了 许多 挑战 性 的 研究 问 
题 。 有 效 的 数据 挖掘 方法 、 系 统 和 服务 的 开发 ， 交 互 的 和 集成 的 数据 控 据 环境 的 构建 是 关键 
的 研究 领域 。 使 用 数据 挖 据 技 术 解 决 大 型 或 复杂 的 应 用 问题 是 数据 挖掘 研究 人 员 、 数 据 按 掘 
系统 和 应 用 的 开发 人 员 面 临 的 重要 任务 。 本 节 介 绍 一 些 反映 这 些 难题 研究 的 数据 挖掘 发 展 
趋势 。 

。 应 用 探索 : 早期 的 数据 挖掘 应 用 主要 集中 在 帮助 企业 获得 竞争 优势 。 随 着 电子 商务 

和 电子 营销 成 为 零售 业 的 主流 ， 数 据 挖 据 在 商业 方面 的 探索 将 会 继续 扩展 。 数 据 控 
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掘 越 来 越 多 地 用 于 其 他 应 用 领域 的 探索 ， 如 Web 和 文本 分 析 、 金 融 分 析 、 制 造 业 、 


政府 、 生 物 医学 和 科学 。 正 在 出 现 的 应 用 领域 包括 反 悦 数据 挖 据 和 移动 (无线) 数 - 


据 挖掘 。 由 于 一 般 的 数据 挖掘 系统 在 处 理 特定 应 用 问题 时 可 能 具有 局 限 性 ， 所 以 我 
们 会 看 到 一 种 趋向 : 开发 面向 特定 领域 的 数据 挖掘 系统 和 工具 ， 以 及 把 无 形 的 数据 
挖掘 功能 嵌 人 到 各 种 服务 中 。 

可 伸缩 的 和 交互 的 数据 挖掘 方法 : 与 传统 的 数据 分 析 方 法 相 比 ， 数 据 挖掘 必须 能 够 
有 效 地 处 理 大 量 数据 ， 并 且 尽 可 能 是 交互 的 。 由 于 收集 的 数据 量 不 断 地 剧 增 ， 所 以 
对 于 单个 和 集成 的 数据 挖 据 功能， 可 伸缩 的 算法 显得 十 分 重要 。 一 个 重要 的 方向 是 
基于 约束 的 挖掘 。 它 致力 于 在 增加 用 户 交互 的 同时 ， 全 面 提高 挖掘 过 程 的 总 体 效 率 。 
它 提供 了 额外 的 控制 方法 ， 人 允许 用 户 说 明和 使 用 约束 ， 引 导数 据 挖掘 系统 搜索 用 户 
感 兴趣 的 模式 。 

与 搜索 引擎 、 数 据 库 系统 、 数 据 仓库 系统 和 云 计 算 系统 的 集成 : 搜索 引擎 、 数 据 库 
系统 、 数 据 仓库 系统 和 云 计 算 系 统 已 经 成 为 主流 信息 处 理 和 计算 系统 。 重 要 的 是 要 
确保 数据 挖 据 作 为 一 种 基本 数据 分 析 组 件 ， 能 够 平滑 地 集成 到 这 种 信息 处 理 环境 中 。 
数据 挖掘 子 系统 /服务 应 该 与 系统 紧密 耦合 成 为 一 个 无 颖 的 统一 架构 ， 或 者 作为 一 种 
无 形 的 功能 。 这 确保 数据 的 可 用 性 、 数 据 挖掘 的 可 移植 性 、 可 扩展 性 、 高 性 能 ， 以 
及 适合 于 多 维 数据 分 析 和 探查 的 集成 的 信息 处 理 环境 。 

挖掘 社会 和 信息 网 络 : 挖掘 社会 和 信息 网 络 ， 以 及 链接 分 析 都 是 重要 的 任务 ， 因 为 
这 种 网 络 是 无 处 不 在 和 复杂 的 。 如 13. 1. 2 节 所 述 ， 为 大 型 网 络 数据 开发 可 伸缩 的 和 
有 效 的 知识 发 现 方法 和 应 用 是 至 关 重 要 的 。 

挖掘 时 间 空 间 数据 、 移 动 对 象 和 物 联网 系统 : 由 于 移动 电话 、GPS 、 传 感 器 和 其 他 
无 线 设备 的 日 趋 流行 ， 物 联网 系统 和 时 间 空 间 数据 迅速 增长 。 如 13. 1. 3 节 所 述 ， 在 
这 种 数据 中 实现 实时 、 有 效 的 知识 发 现存 在 许多 具有 挑战 性 的 研究 问题 。 

挖掘 多 媒体 、 文 本 和 Web 数据 : 正如 13. 1.3 节 所 述 ， 这 类 数据 的 挖掘 是 数据 挖掘 
研究 当前 的 关注 点 。 虽 然 已 经 取得 了 很 大 进展 ， 但 是 还 有 许多 问题 尚 待 解决 。 
挖掘 生物 学 和 生物 医学 数据 : 生物 学 和 生物 医学 数据 独特 的 复杂 性 、 丰 富 性 、 规 模 
和 重要 性 ， 需 要 数据 挖掘 的 特殊 关注 。 挖 掘 DNA 和 和 蛋白 质 序 列 、 挖 掘 高 维 微 阵列 数 
据 、 生 物 路 径 和 网 络 分 析 只 是 该 领域 的 几 个 课题 。 生 物 学 数据 控 据 的 其 他 课题 包括 
挖掘 生物 医学 文献 、 异 种 生物 学 数据 的 链接 分 析 、 通 过 数据 挖掘 集 成 生物 学 信息 。 
数据 挖掘 与 软件 工程 和 系统 工程 : 软件 程序 和 大 型 计算 机 系统 的 规模 越 来 越 大 、 复 
杂 度 越 来 越 高 ， 并 且 越 来 越 趋向 于 将 来 自 不同 的 实现 团队 开发 的 组 件 集成 在 一 起 。 
确保 软件 的 鲁 棒 性 和 可 靠 性 越 来 越 成 为 具有 挑战 性 的 任务 。 有 错误 的 软件 程序 的 运 
行 分 析 实 质 上 是 数据 挖 据 过 程 一 一 跟踪 程序 执行 过 程 中 产生 的 数据 可 能 发 现 重要 的 
模式 和 离 群 点 ， 可 能 导致 最 终 自动 发 现 软件 错误 。 我 们 期 望 针对 软件 /系统 调试 的 数 
据 挖 据 方法 学 的 进一步 发 展 将 提高 软件 的 鲁 棒 性 并 为 软件 /系统 工程 带 来 新 的 活力 。 
可 视 和 听觉 数据 挖掘: 可 视 和 听觉 数据 挖掘 是 一 种 集成 人 的 视觉 和 听觉 系统 ， 并 从 
海量 数据 中 发 现 知识 的 一 种 有 效 途径 。. 这 种 技术 的 系统 开发 将 有 助 于 推动 人 对 有 效 
的 和 有 效果 的 数据 分 析 的 参与 。 

分 布 式 数据 挖掘 和 实时 数据 流 挖掘 ， 传 统 的 数据 挖掘 方法 是 集中 式 的 ， 在 当今 很 多 
分 布 式 环境 (例如 ， 互 联网 、 内 联网 、 局 域 网 、 高 速 无 线 网 络 、 传 感 器 网 络 和 云 计 
算 ) 下 不 能 很 好 地 工作 。 因 此 我 们 期 望 在 分 布 式 数据 挖掘 方法 上 能 有 进展 。 此 外 ， 
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许多 涉及 流 数据 的 应 用 (例如 ， 电 子 商 务 、Web 挖掘 、 股 票 分 析 、 人 侵 检测 、 移 动 
数据 挖 气 和 反 苞 数据 挖掘 ) 都 要 求实 时 地 建立 动态 数据 挖掘 模型。 这 一 方向 还 需要 
更 多 的 研究 。 


。 数据 挖 据 中 的 隐私 保护 和 信息 安全 : 大 量 电子 形式 的 个 人 或 机 密 信 息 ， 加 上 数据 控 


据 工 具 能 力 的 不 断 增 强 ， 对 我 们 的 隐私 和 数据 安全 造成 了 威胁 。 对 反 恶 数据 挖掘 兴 
趣 的 增长 进一步 增加 了 这 种 关注 。 保 护 隐私 的 数据 挖掘 方法 的 进一步 发 展 是 显 而 易 
见 的 。 这 需要 技术 专家 、 社 会 科学 家 、 法 律 专家 、 政 府 官 员 和 公司 协作 ， 为 数据 发 
布 和 数据 挖掘 提出 严格 的 隐私 和 安全 保护 机 制 。 


我 们 充满 信心 地 期 待 下 一 代数 据 挖掘 技术 和 它 带 来 的 利益 。 


13. 7 
13.1 


13.2 


小 结 


挖掘 复杂 的 数据 类 型 提出 了 一 些 挑战 性 问题 ， 为 此 进行 了 一 系列 专门 的 研究 与 开发 。 本 章 给 出 挖掘 
复杂 数据 类 型 的 概述 ， 包 括 挖掘 序列 数据 ， 如 符号 序列 和 生物 学 序列 ; BRAM; 以 及 控 掘 其 
他 类 型 的 数据 ， 包 括 时 间 空 间 数据 、 物 联网 系统 数据 、 多 媒体 数据 、 文 本 和 Web 数据 ， 以 及 数 
据 流 。 

已 经 为 数据 分 析 提 出 了 一 些 广泛 认可 的 统计 学 方法 ， 如 回归 、 广 义 线性 模型 、 方 差分 析 、 混 合 效应 
模型 、 因 素 分 析 、 判 别 分析 、 生 存 分 析 和 质量 控制 。 完 全 涵盖 统计 学 数据 分 析 方 法 已 经 超出 本 书 范 
围 。 感 兴趣 的 读者 可 以 参阅 文献 注释 中 引述 的 统计 学 文献 (13.8 节 ) 。 

研究 人 员 一 直 在 努力 建立 数据 挖掘 的 理论 基础 。 一 些 有 趣 的 建议 已 经 提出 ， 它 们 基于 数据 归 约 、 数 
据 压 缩 、 概 率 统计 理论 、 微 观 经 济 学 理论 和 基于 模式 发 现 的 归纳 数据 库 。 

可 视 数据 挖 握 集 成 数据 挖掘 和 数据 可 视 化 ， 以 便 从 大 型 数据 集中 发 现 隐藏 的 、 有 用 知识 。 可 视 数据 
挖 据 包 括 数 据 可 视 化 、 数 据 挖 气 结果 可 视 化 、 数 据 挖 气 过 程 可 视 化 和 交互 的 可 视 数 据 挖 据 。 了 听觉 数 
据 挖掘 使 用 音频 信号 指示 数据 挖掘 结果 中 的 模式 或 特征 。 

已 经 为 特定 领域 的 应 用 开发 了 许多 定制 的 数据 挖掘 工具， 这些 领 域 包括 金 融 、 零 售 和 电信 业 、 科 学 
与 工程 、 人 侵 检测 和 预防 ， 以 及 推荐 系统 。 这 样 的 基于 应 用 领域 的 研究 把 特定 领域 的 知识 和 数据 分 
析 技 术 结 合 起 来 ， 并 提供 了 特定 用 途 的 数据 挖掘 解决 方案 。 

普 适 的 数据 挖掘 是 指数 据 挖掘 出 现在 我 们 日 常生 活 的 许多 方面 。 它 可 能 影响 我 们 如 何 购物 、 工 作 、 
搜索 信息 和 使 用 计算 机 ， 以 及 我 们 的 休闲 、 健 康 和 幸福 。 在 无 形 的 数据 挖掘 中 , “聪明 的 ”软件 ， 
如 搜索 引擎 、 顾 客 自 适应 Web 服务 ( 例如， 使 用 推荐 算法 ) 、 电 子 邮件 管理 器 等 ， 把 数据 控 掘 结合 
到 它们 的 功能 模块 中 ， 但 却 常常 不 为 用 户 所 察觉 。 

数据 挖掘 带 来 的 主要 社会 关注 是 隐私 和 数据 安全 问题 。 保 护 隐私 的 数据 挖掘 处 理 合法 的 数据 挖掘 得 
到 的 结果 ， 而 不 泄露 底层 敏感 的 数据 值 。 它 的 目标 是 在 保持 数据 挖掘 结果 的 总 体质 量 的 同时 保护 隐 
私 和 确保 安全 。 

数据 挖掘 发 展 趋势 包括 新 应 用 领域 的 探索 方面 所 做 的 进一步 努力 ; 提高 可 伸缩 性 、 交 互 人 性 和 基于 约 
柬 的 挖掘 方法 ; 数据 挖掘 与 Web 服务 、 数 据 库 、 数 据 仓库 和 云 计算 系统 的 集成 ; BUSA 
网 络 。 其 他 的 趋势 除了 Web 挖掘、 分 布 式 的 和 实时 的 挖掘 、 可 视 和 听 党 挖 据 、 数 据 挖掘 中 的 隐私 
和 安全 性 之 外 ， 还 包括 时 间 空 间 数据 、 物 联网 系统 数据 、 生 物 学 数据 、 软 件 / 系 统 工程 数据 、 多 媒 
体 和 文本 数据 挖掘 。 


习题 
序列 数据 无 处 不 在 ， 并 且 具 有 许多 应 用 。 本 章 给 出 了 序列 模式 挖 气 、 序 列 分 类 、 序 列 相似 性 搜索 、 
趋势 分 析 、 生 物 学 序列 比 对 和 建 模 的 概述 。 然 而 ， 我 们 没有 涵盖 序列 素 类 。 给 出 序列 聚 类 的 概述 。 
本 章 给 出 了 序列 模式 挖掘 和 图 模式 控 气 方法 的 概述 。 还 研究 了 挖掘 树 模式 和 偏 序 模式 。 总 结 了 挖 据 
结构 化 模式 的 方法 ， 包 括 序 列 、 树 、 图 和 偏 序 关系 。 考 察 什么 类 型 的 结构 模式 挖 据 还 未 被 研究 。 提 
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出 可 能 创建 这 种 新 挖掘 问题 的 应 用 。 

13.3 ”许多 研究 都 分 析 同 质 信息 网 络 ( 例 如， 由 朋友 链接 朋友 组 成 的 社会 网 络 ) 。 然 而 ， 许 多 应 用 都 涉及 
骨 质 信息 网 络 〈( 即 链接 多 种 类 型 对 象 的 网 络 ， 如 链接 研究 论文 、 引用、 作者 和 主题 的 网 络 )。 挖 气 
异 质 信息 网 络 的 方法 与 挖掘 同 质 信息 网 络 的 方法 的 主要 差别 是 什么 ? 

13.4 给 出 一 个 未 在 本 章 论 及 的 数据 挖 所 应 用 的 例子 。 讨 论 在 此 应 用 中 如 何 使 用 各 种 不 同 的 数据 挖掘 形式 。 

13.5 ”为 什么 建立 数据 挖掘 的 理论 基础 是 重要 的 ? 说 出 并 描述 已 提出 的 数据 挖掘 的 主要 理论 基础 。 评 价 它 
们 如 何 满 足 (或 不 能 满足 ) 理想 的 数据 挖 据 理 论 框 架 。 

13.6 研究 课题 ) 建立 数据 控 气 理论 需要 提出 一 个 理论 框架 ， 使 得 大 部 分 的 数据 控 据 功能 可 以 在 这 个 杠 
架 下 得 到 解释 。 以 一 种 理论 为 例 〈 例 如 ， 数 据 压 缩 理 论 ) ， 考 察 大 部 分 数据 挖掘 功能 如 何 适合 该 框 
架 。 如 果 有 些 功 能 不 能 适合 当前 的 这 个 框架 ， 你 能 提出 一 种 方式 对 框架 进行 扩展 ， 使 它 能 够 解释 这 
些 功 能 吗 ? 

13.7 统计 数据 分 析 和 数据 挖 据 之 间 有 很 强 的 联系 。 有 些 人 认为 数据 挖掘 是 自动 的 和 可 伸缩 的 统计 数据 分 
析 方 法 。 你 赞成 还 是 反对 这 种 观点 ? 提出 一 种 统计 分 析 方 法 ， 通 过 与 现 有 数据 控 据 方法 的 结合 ， 可 
以 很 好 地 自动 执行 或 扩展 。 

13.8 可 视 数 据 挖 据 与 数据 可 视 化 之 间 有 什么 区 别 ? 数据 可 视 化 可 能 受 数据 量 太 大 的 制约 。 例 如 ， 如 果 社 
会 网 络 太 大 ， 并 且 具 有 复杂 的 和 稠密 的 连接 ， 可 视 地 从 中 发 现 有 趣 的 特性 并 不 是 一 件 容易 的 事情 。 
请 提出 一 种 可 视 化 方法 ， 可 以 帮助 人 们 通过 网 络 拓扑 了 解 社 会 网 络 中 有 趣 的 特征 。 

13.9 提出 几 种 对 听 党 数据 挖 振 的 实现 方法 。 可 否 将 听觉 数据 挖 气 与 可 视 数据 挖掘 结 合 起 来 ， 使 得 数据 挖 
气 有 趣 而 有 能 力 ? 可 和 否 开 发 一 些 视频 数据 挖掘 方法 ? 给 出 一 些 例子 和 解决 方案 ,使 得 集成 的 听觉 可 
视 挖 据 有 效果 。 

13.10 在 过 去 的 几 十 年 中 ， 通 用 计算 机 和 不 依赖 于 领域 的 关系 数据 库 系 统 已 形成 一 个 巨大 的 市 场 。 然 而 ， 
很 多 人 认为 ， 通 用 的 数据 挖掘 系统 不 会 在 数据 挖掘 市 场 中 流行 。 你 的 看 法 如 何 ? 对 数据 控 据 而 言 ， 
我 们 应 当 致 力 于 开发 不 依赖 于 领域 的 数据 挖掘 系统 ， 还 是 应 当 开 发 特定 领域 的 数据 控 据 解决 方案 ? 
请 说 出 你 的 理由 。 

13. 11 什么 是 协同 推荐 系统 ? 它 与 基于 顾客 或 产品 的 聚 类 系统 有 哪些 不 同 ? 它 与 典型 的 分 类 或 预测 建 模 系 
统 有 哪些 不 同 ? 列举 一 种 协同 过 滤 方 法 ， 并 讨论 为 什么 它 是 可 行 的 ， 实 践 中 有 何 局 限 性 。 

13.12 假设 当地 银行 有 一 个 数据 控 气 系统。 该 银行 正在 研究 你 的 信用 卡 的 使 用 模式 。 注 意 到 你 在 家 庭 装修 
店 有 多 笔 交 易 ， 银 行 决定 与 你 联系 ， 提 供 有 关 家 居 改 善 方面 的 特别 贷款 信息 。 
(a) 讨论 一 下 这 是 否 可 能 与 你 的 隐私 权 相 冲 突 。 
(b) 给 出 另外 一 个 使 你 感到 数据 挖掘 侵犯 你 的 隐私 权 的 情况 。 
(c) 描述 一 种 保护 隐私 的 数据 挖 握 方 法 ， 它 可 以 允许 银行 进行 顾客 模式 分 析 ， 而 不 侵犯 顾客 的 隐 

私 权 。 

(d) 可 否 举 出 一 些 数据 挖掘 对 社会 有 帮助 的 例子 ? 你 能 想 出 一 些 它们 可 能 用 来 危害 社会 的 方法 吗 ? 

13. 13 ”你 认为 把 数据 挖掘 研究 市 场 化 面临 的 主要 挑战 是 什么 ? 举 一 个 数据 控 气 研究 问题 的 例子 说 明 ， 按 照 
你 的 观点 ， 它 对 市 场 和 社会 有 很 大 影响 。 讨 论 如 何 处 理 这 种 研究 问题 。 

13.14 ”根据 你 的 观点 ， 数 据 挖 扬 最 具 挑 战 性 的 研究 问题 是 什么 ”如 果 给 你 几 年 时 间 以 及 一 批 研究 和 开发 人 
员 ， 你 能 制定 一 个 计划 ， 使 得 可 以 朝 着 解决 该 问题 的 方向 取得 进展 吗 ? 

13.15 基于 你 的 经 验 和 知识 ,提出 一 个 本 章 没有 讨论 到 的 数据 挖掘 新 的 前 沿 课题 。 


13.8 文献 注释 


关于 挖掘 复杂 的 数据 类 型 ， 有 许多 涵盖 各 种 主题 的 论文 和 书籍 。 这 里 将 列举 一 些 最 近 的 书籍 和 广泛 引 
用 的 综述 和 论文 。 

时 间 序 列 分 析 已 经 在 统计 学 和 计算 机 科学 界 研究 了 数 十 年 ， 有 许多 教科 书 ， 如 Box, Jenkins 和 Reinsel 
[BJRO8] Brockwell 和 Davis [ BD02 ] Chatfield [ Cha03b ] Hamilton [ Ham94 ] ， 以 及 Shumway 和 Stoffer 
[ SS05 ] Faloutsos, Ranganathan 和 Manolopoulos[ FRM94] 提出 了 一 种 时 间 序列 数据 库 中 子 序列 快速 匹配 方 
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法 。Agrawal Lin, Sawhney 和 Shim[ ALSS95 ] 开发 了 一 种 在 有 噪声 、 缩 放 和 平移 的 时 间 序 列 数据 空中 快速 
进行 相似 性 搜索 的 方法 。Shasha 和 Zhu 给 出 了 时 间 序 列 数据 高 性 能 发 现 方法 的 综述 [SZ04 ] 。 

序列 模式 挖掘 已 经 被 许多 研究 者 研究 ， 如 Agrawal 和 Srikant[ SA9], ，Zaki[ ZakO1], Pei, Han, Mortazavi- Asl 
等 [PHMA‘04], Yan, Han 和 Afshar[ YHA03 ] 。 序 列 分 类 的 研究 包括 本 、Bailey 和 Dong[JBD05] ， 以 及 Ye 和 Ke- 
ogh[YK09] ， 而 综述 见 Xing, Pei 和 Keogh[ XPK10] 。Dong 和 Pei[ DP07] 给 出 序列 模式 挖掘 方法 的 综述 。 

生物 学 序列 的 分 析 方 法 包括 马尔 科 夫 链 和 隐 马 尔 科 夫 模型 ， 在 许多 书 和 讲稿 中 都 有 介绍 ， 如 Waterman 
[Wat95] Setubal 和 Meidanis [SM97], Durbin, Eddy, Krogh 和 Mitchison [ DEKM98 ] Baldi 和 Brunak 
[ BBO1], Krane 和 Raymer[ KR03 ] ，Rabiner[ Rab89 ] Jones 和 Pevzner[ J]P04 ] ， 以 及 Baxevanis 和 Ouellette 
[BO04]。 关 于 BLAST (又 见 Korf, Yandell 和 Bedell [ KYB03]) 可 以 在 NCBI 的 Web 站 点 http: / 
www. ncbi. nlm. nih. gov/BLASTZ 上 找到 。 

图 模式 挖 据 已 经 被 广泛 研究 ， 包 括 Holder, Cook 和 Djoko[ HCD94 ] Inokuchi, Washio 和 Motoda 
[IWM98 ] ，Kuramochi 和 Karypis[ KKO1], Yan 和 Han[ YHO2, YHO3a], Borgelt 和 Berthold [ BBO2], Huan, 
Wang, Bandyopadhyay 等 [HWB‘*04], LA. Nijssen 和 Kok[ NK04] 的 Gaston 工具 。 

在 社会 和 信息 网 络 分 析 方 面 有 大 量 研究 ， 包 括 Newman[ Newl0], Easley 和 Kleinberg[ EK10] Yu, Han 
和 Faloutsos[YHF10] Wasserman 和 Faust[ WF94], Watts[ Wat03 ] Newman, Barabasi 和 Watts [NBW06]。 
网 络 的 统计 学 建 模 被 广泛 研究 ， 如 Albert 和 Barbasi[ AB99 ] ， Watts[ Wat03 ] ，Faloutsos Faloutsos 和 Falout- 
sos[ FFF99 ] Kumar, Raghavan, Rajagopalan 等 [KRR 00] ， 以 及 Leskovec, Kleinberg 和 Faloutsos[ LKFO5 ] 。 
通过 信息 网 络 分 析 进行 数据 清理 、 集 成 和 验证 被 许多 人 研究 ， 如 Bhattacharya 和 Getoor[ BC04] ， 以 及 Yin. 
Han 和 Yu[ YHY07, YHY08]。 

信息 网 络 中 的 聚 类 、 秩 评定 和 分 类 被 广泛 研究 ,包括 Brin 和 Page[ BP98 ] Chakrabarti, Dom 和 Indyk 
[CDI98] ，Kleinberg[ Kle99a], Getoor, Friedman, Koller 和 Taskar[ GFKTO1], Newman 和 M. Girvan[ NGO4], Yin, 
Han, Yang 和 Yu[ YHYY04], Yin, Han 和 Yu[ YHY05], Xu, Yuruk, Feng 和 Schweiger [ XYFS07], Kulis, Basu 、 
Dhillon 和 Mooney [ KBDM09 ] Sun, Han, Zhao 等 [SHZ* 09] , Neville, Gallaher 和 Eliassi- Rad [ NGERO9], Ji, 
Sun, Danilevsky 等 [JSD "10j。 信 息 网 络 中 的 角色 发 现 和 链接 预测 也 被 广泛 研究 ， 如 Krebs[ Kre02 ] Kubica, 
Moore 和 Schneider[KMS03 ] ，Liben- Nowell 和 Kleinberg[ LNK03] ， 以 及 Wang, Han, Jia [ WHJ* 10]。 

信息 网 络 中 的 相似 性 搜索 和 OLAP 被 许多 人 研究 ， 包 括 Tian, Hankins 和 Patel[ THP08] ， 以 及 Chen, 
Yan, Zhu 等 [CYZ'*08]。 社会 信息 网 络 的 演变 被 许多 研究 人 员 所 研究 ， 如 Chakrabarti, Kumar 和 Tomkins 
[CKT06], Chi, Song, Zhou 等 {CSZ*07], Tang, Liu, Zhang 和 Nazeri[ TLZNO8], Xu, Zhang, Yu 和 Long 
[ XZYLO8], Kim 和 Han[ KHO9], LL Sun, Tang 和 Han[ STH* 10], 

SSAA Rt ie) S HSC A WA, Miller 和 Han[f MH09] 出 版 了 论文 集 ， 还 在 一 些 教科 书 中 介 
绍 ， 如 Shekhar 和 Chawla[ SC03 ] Hsu, Lee 和 Wang[ HLW07] 。 空间 到 类 算法 已 经 在 本 书 的 第 10 章 和 第 11 章 
广泛 讨论 。 研 究 在 空间 数据 仓库 和 OLAP 上 进行 ， 如 Stefanovic, Han 和 Koperski[ SHK00] ; 以 及 空间 与 时 间 空 
间 数 据 挖掘 ， 如 Koperski 和 Han[ KH95 ] Mamoulis, Cao, 、Kollios 、 Hadjieleftheriou 等 [ MCK*04], Tsoukatos 
和 Gunopulos[ TG01]， 以 及 Hadjieleftheriou, Kollios, Gunopulos 和 Tsotras[ HKGT03 了 。 挖 据 移 动 对 象 数 据 已 经 
被 许多 人 研究 ， 如 Vlachos Gunopulos 和 Kollios [ VGK02 ] Tao, Faloutsos, Papadias 和 Liu [ TFPLO4], Li, 
Han, Kim 和 Gonzalez[ LHKGO7], Lee, Han 和 Whang[ LHW07] ， 以 及 Li, Ding, Han 等 [LDH*10], 2%Rt 
间 、 空 间 和 时 间 空 间 数据 挖 据 研 究 的 文献 ， 见 Roddick, Hornsby 和 Spiliopoulou 的 汇集 [ RHSO1] 。 

多 媒体 数据 挖掘 源 于 图 像 处 理 和 模式 识别 ， 已 经 被 广泛 研究 ， 有 许多 教科 书 ， 如 Gonzalez 和 Woods 
[GW07 ] Russ[ Rus06] Duda, Hart 和 Stork[ DHSO1], Z. Zhang 和 R. Zhang[ ZZ09] 。 多 媒体 数据 的 搜索 和 
挖掘 已 经 被 许多 人 研究 (例如 ， 见 Fayyad 和 Smyth[ FS93 ] Faloutsos 和 Lin[ FL95 ] ， Natsev, Rastogi 和 
Shim[ NRS99 ] Zaiane, Han 和 Zhu[ ZHZ00] ) Hsu, Lee 和 Zhang 对 图 像 挖 气 方法 进行 了 综述 [ HLZ02], 

文本 数据 分 析 已 经 在 信息 检索 领域 被 广泛 研究 ， 有 许多 教科 书 和 综述 文章 ， 如 Croft, Metzler 和 Strohm- 
an[ CMS09 ] S. Buttcher, C. Clarke, G. Cormack [ BCC10], Manning, Raghavan 和 Schutze [ MRS08 ] ，Gross- 
man 和 Frieder[ GF04 ] Baeza- Yates 和 Riberio- Neto[ BYRN11 ] ，Zhaif Zha08 ] Feldman 和 Sanger | FS06 ] , 
Berry[ Ber03 ] ， 以 及 Weiss, Indurkhya, Zhang 和 Damerau[ WIZD04 ] , 文本 挖掘 是 一 个 快速 发 展 的 领域 ， 最 
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近 几 年 发 表 了 大 量 文章 ， 涵 羡 了 许多 主题 ， 如 建 模 (例如 ，Blei 和 Laffery[ BL09]) 、 观 点 分 析 《 例如， 
Pang 和 Lee[ PLO7]) 和 上 下 文 文本 挖掘 〈 例 如 ，Mei 和 Zhail M206 ] ) 。 

Web 挖掘 是 另 一 个 被 关注 的 主题 ， 已 经 出 版 了 一 些 书 ， 如 Chakrabarti[ Cha03a], Liu[ Liu06] 和 Bery 
[ Ber03 ] 。Web 挖掘 显著 地 提升 了 Web 搜索 引擎 ， 出 现 了 一 些 有 影响 的 里 程 碑 式 的 工作 ， 如 Brin 和 Page 
[BP98], Kleinbergl Kle99b], Chakrabarti, Dom, Kumar 等 [CDK*99], Kleinberg 和 Tomkins[ KT99] 。 自 此 
之 后 产生 了 大 量 结 果 ， 如 搜索 日 志 挖 据 (例如 ，Silvestri[ Sill0 ] )、 博 客 挖 气 (例如 Mei, Liu, Su 和 Zhai 
[MLSZ06] ) ， 以 及 挖掘 在 线 论坛 〈 例 如 ，Wang，Lin 等 【CWL*08])。 

数据 流 系 统 和 流 数 据 处 理 的 书籍 和 综述 包括 Babu 和 Widom[ BW01 ] Babcock, Babu, Datar 等 
[ BBD*02], Muthukrishnan[ Mut05 ] ，Aggarwal[ Agg06] 。 

流 数据 挖 据 研究 涵盖 流 立 方 体 建 模 〈 例 如 ，Chen、Dong 、Han 等 【CDH? 02] )、 流 频繁 模式 挖掘 〈 例 
如 ，Manku 和 Motwani[ MM02 ] Karp, Papadimitriou 和 Shenker[ KPS03 ] ) 、 流 分 类 (例如 ， Domingos and 
Hulten[ DHOO], Wang, Fan, Yu 和 Han[ WFYHO3], Aggarwal, Han, Wang 和 Yu[ AHWY04b] ) 和 流 聚 类 
(例如 ，Guha、Mishra、Motwani 和 O’ Callaghan[ GMMO00] Aggarwal, Han, Wang 和 Yu[ AHWY03 ] ) 。 

有 许多 书 讨论 数据 挖 扎 应 用 。 关 于 财经 数据 分 析 与 建 模 ， 见 Benninga[ Ben08 ] 和 Higgins[ Hig08] 。 关 
于 零售 数据 挖 据 和 客户 关系 管理 ， 见 Berry 和 Linoff[ BL04 ] Berson, Smith 和 Thearling[ BST99 ] 。 关 于 电信 
数据 挖掘 ， 见 Horak[ Hor08 ] 。 还 有 一 些 关 于 科学 数据 分 析 的 书籍 ， 如 Grossman, Kamath, Kegelmeyer 等 
[ GKK*01 | 和 Kamath[ Kam09 ] 。 

数据 挖掘 的 理论 基础 已 经 被 许多 研究 人 员 所 讨论 。 例 如 ，Mannila 给 出 了 关于 数据 控 掘 基础 的 研究 总 结 
[ Man00] 。 数 据 挖掘 的 数据 归 约 观点 汇总 在 Barbar& 、DuMouchel Faloutos 等 的 The New Jersey Data Reduction 
Report〈( 新泽西 数据 归 约 报告 ) 中 [BDF*97] 。 数 据 压缩 观点 可 以 在 关于 最 小 描述 长 度 (MDL) 原理 的 研 
究 中 找到 ， 如 Grunwald 和 Rissanen[ GR07 ] 。 

数据 挖掘 的 模式 发 现 观点 在 许多 机 器 学 习 和 数据 挖掘 研究 中 讨论 ， 涵 盖 从 关联 挖掘 到 决策 树 归 纳 、 序 列 模式 
挖掘 、 聚 类 等 。 概 率 论 观点 在 统计 学 和 机 器 学 习 领 域 很 流行 ， 如 第 9 章 的 贝 叶 斯 网 络 和 概率 图 模型 (例如 ， 
Koller 和 Friedman[ KF09] ) Kleinberg, Papadimitriou 和 Raghavan[ KPR98] 提出 了 微观 经 济 学 观点 ， 把 数据 控 据 
看 做 最 优化 问题 。 归 纳 数据 库 观 点 的 研究 包括 Imielinski 和 Mannila[ IM96], De Raedt, Guns 和 Nijssen[ RGN10] 。 

数据 分 析 的 统计 学 方法 在 许多 书 中 都 有 介绍 ， 如 Hastie, Tibshirani 和 Friedman [ HTF09 | Freedman, 
Pisani 和 Purves[ FPP07 ] Devore[ Dev03 ] Kutner, Nachtsheim, Neter 和 Li[ KNNLO4 ] Dobson [ Dob01 ] ， 
Breiman, Friedman, Olshen 和 Stone[ BFOS84], Pinheiro 和 Bates[ PBOO], Johnson 和 Wichem[ JW02b], Hu- 
berty[ Hub94 ] , Shumway 和 Stoffer[ SS05], UX Miller[ Mil98 ] 。 

关于 可 视 数 据 挖掘 ， 流 行 的 数据 和 信息 的 可 视 化 显示 方面 的 书包 括 Tufte[ Tuf90, Tuf97, Tu0l], ZR 
可 视 化 技术 的 总 结 在 Cleveland[ Cle93] 中 。 一 本 专门 介绍 可 视 数 据 挖 掘 的 书 ，( Visual Data Mining: Tech- 
niques and Tools for Data Visualization and Mining) 可 视 数据 挖 据 : 数据 可 视 化 与 挖掘 的 技术 和 工具 由 Soukup 
和 Davidson 撰写 [SD02] 。Fayyad Grinstein 和 Wierse 编辑 的 书 (Information Visualization in Data Mining and 
Knowledge Discovery) 数据 挖掘 与 知识 发 现 的 信息 可 视 化 [FGW01] 包含 了 可 视 数据 挖掘 方法 的 文章 汇集 。 

普 适 的 和 无 形 的 数据 挖掘 在 许多 场合 下 都 被 讨论 ， 如 John [ Joh99 ] ， 而 一 些 文章 包含 在 Kargupta、 
Joshi, Sivakumar 和 Yesha 编辑 的 书 中 [ KJSY04 ] Gates 的 书 Business @ the Speed of Thought; Succeeding in 
the Digital Economy[ Cat00] 讨论 了 电子 商务 和 客户 关系 管理 ， 并 对 数据 挖掘 的 未 来 给 出 了 有 趣 的 展望 。Me- 
na[ Men03] 是 一 本 内 容 丰 富 的 书 ， 介 绍 使 用 数据 挖掘 检测 和 预防 犯罪 。 它 涵盖 了 许多 犯罪 活动 的 形式 ， 洒 
TKR. 、 洗 黑钱 、 识 别 犯 罪 和 和 人 侵 检测 。 

关于 隐私 和 数据 安全 的 数据 挖掘 问题 在 文献 中 广泛 讨论 。 数 据 挖掘 中 的 隐私 与 安全 方面 的 书包 括 Thuraising- 
ham[ Thu04 ] Aggarwal 和 Yu[ AY08 ] Vaidya, Clifton 和 Zhu[VCZ10]， 以 及 Fung, Wang, Fu 和 Yu[ FWFY10], 
研究 论文 包括 Agrawal 和 Srikant [ AS00 ] Evfimievski 、 Srikant, Agrawal 和 Gehrke [ ESAGO2], Vaidya 和 Clifton 
[ VC03] 。 差 动 隐私 由 Dwork[ Dwo06] 提出 ， 并 被 许多 人 研究 ， 如 Hay, Rastogi, Miklau 和 Suciu[ HRMS10] 。 

在 各 种 论坛 和 场合 ， 有 许多 关于 数据 挖掘 趋势 和 研究 方向 的 讨论 。 有 些 书 是 这 类 文章 的 汇集 ， 如 Kar- 
gupta, Han, Yu 等 [KHY*08], 
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discrete (离散 ~), 44 neural network topology definition (神经 网 络 拓扑 定义 ，400 
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generalization control ( ~ 泛 化 控制 ) 170 sample learning calculations (样本 学 习 计 算 ) 404 -406 
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interpretability and (可 解释 性 与 ~ ) 406 -408 behavioral attributes (行为 属性 ) 546, 573 


learning (%3), 400 believability, data 〈 可 信和 度 ， 数 据 ) 85 


438 - R 5] 


BI (business intelligence, #9 44/86), 27 
biases (Aff), 402, 404 
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ensemble methods for ( ~ 的 组 合 方 法 )，385 
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k- nearest- neighbor (上 -最 近邻 ~ ) ，423 -425 
lazy learners (tE), 393, 422 -426 
learning step (学 习 阶段 ) 328 
model representation (模型 表示 ) ，18 
model selection 〈 模 型 选择 ) 364, 370 -377 
multiclass (多 类 ~ ) 430 -432, 437 
in multimedia data mining (多 媒体 数据 控 据 中 的 ~ ) ，596 
neural networks for (用 于 分 类 的 神经 网 络 ) ，19，398 -408 
pattern- based (基于 模式 的 ~), 282, 318 
perception-based (基于 感知 器 的 ~ ) 348 -350 
precision measure 〈 精度 度量 ) 368 -369 
as prediction problem ( ~ 作为 预测 问题 ) 328 
process ( ~ 过程) 328 
process illustration ( ~ 过 程 图 示 ) , 329 
random forests ( 随机 森林 ) ，382 -383 
recall measure ( 召回 率 度量 ) 368 -~369 
robustness ( Ett), 369 
rough set approach 〔 粗 糙 集 方法 ) , 427-428, 437 
rule-based ( 基于 规则 的 ~), 355 -363, 386 
scalability ( 可 伸缩 性 ) 369 
semi-supervised ( 半 监 督 ~), ，432 -433 437 
sentiment (意见 ~ ) 434 
spatial ( 空间) ，595 
speed (速度 ) 369 
support vector machines (SVM, ¥# Fin] EUL), 393, 408 - 
415, 437 
transfer learning (迁移 学 习 ) ，434 -436 
tree pruning 〈 树 剪 枝 ) 344 -347 385 
Web-document (Web 文档 ~ ) ，435 
Classification Based on Associations ( CBA， 基 于 关联 的 分 
类 ) 417 
Classification based on Multiple Association Rules ( CMAR, 
基于 多 关联 规则 的 分 类 ) ，417 -418 
Classification based on Predictive Association Rules (CPAR, 
基于 有 区 别 力 的 关联 规则 的 分 类 ) ，418 -419 
classification-based outlier detection ( 基于 分 类 的 离 群 点 检 
测 )，571 -573，582 
one-class model (一 类 模型 ) 571 -572 
semi- supervised learning ( 半 监 督学 习 ) 572 
见 outlier detection 
classifiers (分 类 器 ， 分 类 法 ) 328 
accuracy ( 准确 率 ) 330, 366 
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comparison aspects ( ~ 比较 的 方面 ) 369 
decision tree 〈 决 策 树 ) 331 
error rate (错误 率 ) 367 
k-nearest-neighbor (上 -最 近邻 )，423 -425 
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overfitting data (过 拟 合 数据 ) 330 
performance evaluation metrics (性 能 评估 度量 ) 364 -370 
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strategy ( 策略 ) 481 
见 cluster analysis, grid-based methods 
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example (HJF), 248 
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closed pattems ( H), 280 
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cloud computing 〔 云 计算 ) 31 
cluster analysis 〈 聚 类 分 析 ) ，19 -20，443 -495 
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hierarchical methods 《层次 方法 ) 449, 457-470, 491 
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k-medoids (上 -中 心 点 ) ，454 -457 

k-modes (上 - 众 数 )，454 
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methods ( ~ 方法 ) 448 -451 
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OPTICS, 473 -476 
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for outlier detection (用 于 离 群 点 检测 的 ~ ) 445 

outlier detection and ( 离 群 点 检测 与 ~ ) 543 
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taxonomy formation (分 类 法 形成 )，20 
techniques 〈 技 术 ) 443, 444 
as unsupervised learning ( ~ 作为 无 监督 学 习 ) 445 
usability ( ~ 的 可 用 性) ，447 
use of ( ~ 的 使 用 ) 444 
cluster computing ( 集群 计算 ) 31 
cluster samples ( 艇 抽样 )，108 - 109 
cluster- based local outlier factor ( CBLOF， 基 于 艇 的 局 部 离 
群 点 因子 ) 569-570 
clustering (3826), J cluster analysis 
clustering features ( 聚 类 特征 ) 462, 463, 464 
Clustering Large Applications based upon Randomized Search 
(CCLARANS ， 基 于 随机 搜索 聚 类 大 型 应 用 》，457 
Clustering Large Applications (CLARA, 382% #4 hi fA), 
456 — 457 , 
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extrinsic methods (外 在 方法 )，487 ~489 
intrinsic methods ( 内 在 方法 )，487，489 ~490 
rag bag (PEASE) , 488 
sili.ouette coefficient (#238 RR), 489 -490 
small cluster preservation (/]\fRGRFFtE) , 488 
clustering space 〈 聚 类 空间 ) ，448 
clustering tendency assessment 〈 聚 类 趋势 评估 ) 484 ~486 
homogeneous hypothesis (RRK), 486 
Hopkins statistic (和 霍 普 金 斯 统计 量 ) , 484 -485 
nonhomogeneous hypothesis ( 非 同 质 假设 )，486 
nonuniform distribution of data (数据 的 非 均 名 分 布 )，484 
见 cluster analysis 
clustering with obstacles problem (具有 障 但 物 的 聚 类 问 
题 ) 537 
clustering- based methods 《基于 聚 类 的 方法 ) 552, 567 -57] 
example 〈 例 子 ) 553 
XL outlier detection 
clustering- based outlier detection (基于 聚 类 的 离 群 点 检 
测 ) ，567 -571，582 
approaches (方法) 567 
distance to closest cluster (到 最 近 簇 的 距离 )、568 -569 
fixed-width clustering ( 固定 宽度 的 聚 类 )，570 
intrusion detection by (通过 ~ 的 人 侵 检 测 ，569 -570 
objects not belonging to a cluster (不 属于 艇 的 对 象 ) 568 
in small clusters (小 簇 中 的 ~), 570 -571 
weakness of ( ~ 的 缺点 ) 571 
clustering- based quantitative associations ( 基于 聚 类 的 量化 关 
联 ) 290 -291 
clusters (#£), 66, 443, 444, 490 
arbitrary shape, discovery of (发 现任 意 形状 的 簇 , 446 
assignment rule (分 配 规则 ) , 497 -498 
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completeness (完全 性 ) ，488 

constraints on ( ~ 上 的 约束 ) ，533 

cuts and (#43 ~), 529 -530 

density-based (基于 密度 的 ~), 472 

determining number of (确定 簇 数 )，484，486 -487 

discovery of ( ~ 的 发 现 ) ，318 

fuzzy (模糊 ~), 499 -501 

graph clusters, finding (HK, 发现 ~ )，528 -529 
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homogeneity 〈 同 质 性 ) 487 -488 

merging ( ~ 合并 ) 469, 470 

ordering ( ~ 排序 ) 474 —475, 477 

pattem- based (基于 模式 的 ~), 516 

probabilistic (概率 ~ ) 502 -503 

separation of ( ~ 的 分 离 性 ) 447 

shapes ( ~ 的 形状 ) 471 

small, preservation (小 艇 保持 ) 488 
CMAR, A Classification based on Multiple Association Rules 
CN2, 359, 363 
collaborative recommender systems (协同 推荐 系统 ) 610, 

617, 618 

collective outlier detection (集体 离 群 点 检测 ) 548, 582 

categories of ( ~ 的 类 别 ) ，576 

contextual outlier detection versus (情境 离 群 点 检测 

与 ~ ) 575 

on graph data (图 数据 上 的 ~), 576 

structure discovery 〈 结构 发 现 ) 575 
collective outliers (集体 离 群 点 ) 575, 581 

mining (#48), 575 -576 
co-location patterns (协同 定位 模式 ) 319, 595 
colossal patterns ( 巨型 模式 ) 302, 320 

core descendants 〈 核 后 代 ) , 305, 306 

core patterns (ZZA), 304 -305 

illustrated (图 示 ) ，303 

mining challenge (挖掘 的 挑战 ) 302 -303 

Pattern- Fusion mining (模式 融合 挖掘 ) 302 -307 
combined significance (联合 显著 性 ) 312 
complete-linkage algorithm (全 链接 算法 ) 462 
completeness (完全 性 ) 

data (数据 的 ~ )，84 -85 

data mining algorithm (数据 挖掘 算法 的 ~ ) 22 
complex data types (复杂 数据 类 型 ) 166 

biological sequence data (生物 学 序列 数据 ) , 586, 590 -591 

graph patterns (图 模式 ) 591 -592 

mining ( 控 据 ~ ) 585-598, 625 

networks ( 网络) 591 ~592 

in science applications (科学 应 用 中 的 ~ ) 612 

summary (概述 ) 586 

symbolic sequence data (符号 序列 数据 ) , 586, 588 -590 


time-series data ( 时间 序列 数据 ) , 586, 587 ~588 
composite join indices (复合 连接 索引 ) 162 
compressed patterns ( 压缩 的 模式 ) 281 
mining ( 按 握 ~), 307 -312 
mining by pattem clustering ( 通过 模式 聚 类 控 掘 ~ )， 
308 -310 
compression ( 压缩 ) 100, 120 
lossless (无 损 ~ ) 100 
lossy (A ~), 100 
theory ( ~ 理论 ) 601 
computer science applications (计算 机 科学 应 用 ) 613 
concept characterization (概念 特征 化 ) 180 
concept comparison (概念 比较 ) 180 
concept description (概念 描述 ) 166, 180 
concept hierarchies (概念 分 层 ) 142, 179 
for generalizing data ( ~ 用 于 泛 化 数据 ) 150 
illustrated (Aas), 143, 144 
implicit ( 隐 含 的 ~ ) 143 
manual provision (人 工 提供 的 ~ ) 144 
multilevel association rule mining with (使 用 ~ 的 多 层 关联 
规则 挖掘 ) 285 
multiple (£Z ~), 144 
for nominal attributes 〈 标 称 属性 的 ~ ) 284 
for specializing data ( ~ 用 于 特 化 数据 ) 150 
concept hierarchy generation 〈 概念 分 层 产生 ) 112, 113, 120 
based on number of distinct values 〈 基 于 不 同 值 个 数 ~ ) ，118 
illustrated (图 示 ) 112 
methods (方法 ), 117 -119 
for nominal data 〈 标 称 数据 的 ~ ) ，117 -119 
with prespecified semantic connections (使 用 预先 定义 的 
语义 联系 ~ ) ，119 
schema (模式 ) 119 
conditional probability table (CPT， 条 件 概 率 表 )，394， 
395 -396 
confidence (置信 和 度 ) 21 
association rule (关联 规则 的 ~), 21 
interval (置信 区 间 ) 219 -220 
limits (RÈR), 373 
rule (规则 的 ~), 245, 246 
conflict resolution strategy ( 冲突 解决 策略 ) 356 
confusion matrix ( RAER), 365-366, 386 
illustrated (图 示 )，366 
connectionist leaming (连接 者 学 习 ) ，398 
consecutive rules ( 连续 性 规则 ) 92 
Constrained Vector Quantization Error (CVQE) 
Algorithm (约束 的 向 量 量 化 误差 算法 ) ，536 
constraint- based clustering ( 基于 约束 的 聚 类 ) ，447，497， 
532 - 538, 539 
categorization of constraints and (约束 和 ~ 的 分 类 ) , 533 -535 


hard constraints (WEAR), 535 -536 
methods (方法 ) 535 -538 
soft constraints ( 软 约束 ) 536 ~537 
speeding up (JUH ~), 537 -538 
JL cluster analysis 
constraint-based mining (基于 约束 的 控 握 ) , 294-301, 320 
interactive exploratory mining/analysis ( ~ 的 交互 探索 挖 
据 / 分 析 ) 295 
as mining trend ( ~ 作为 挖 所 趋势) 623 
constraint- based patterns/rules 《基于 约束 的 模式 /规则 ) 281 
constraint-based sequential pattem mining (基于 约束 的 序列 
模式 控 气 ) ，589 
constraint- guided mining 《约束 指导 的 挖 据 )，30 
constraints (约束 ) 
antimonotonic (有 反 单 调 的 )，298，301 
association mle (关联 规则 ~ ) ，296 -297 
cannot-link (不 能 联系 ~), 533 
on clusters (ER ~), 533 
coherence ( ~ 的 一 致 性 ) 535 
conflicting ( 冲突 的 ~), 535 
convertible (可 转变 的 ~ ) ，299 -300 
data (He ~ ) 294 
data-antimonotonic 〈 数 据 反 单 调 的 ) 300 
data-pruning 《数据 前 枝 )，300 -301，320 
data- succinct (数据 简洁 的 ~ ) 300 
dimension/level ( 维 / 层 ~), 294, 297 
hard ( 硬 ~), 534, 535 -536, 539 
inconvertible (不 能 转变 的 ~ ) ，300 
on instances ( 实例 上 的 ~ ) 533, 539 
interestingness (兴趣 度 ~ ) 294, 297 
knowledge type (知识 类 型 ~ ) 294 
monotonic (单调 的 ~ ) 298 
must-link (必须 联系 ~), 533, 536 
pattem-pruning (模式 剪 枝 ~), ，297 -300，320 
rules for ( ~ 的 规则 ) ，294 
on similarity measures ( 相似 性 度量 上 的 ~), 533 -534 
soft (k~), 534, 536 -537, 539 
succinct (简洁 的 ~ ) 298 -299 
content-based retrieval (基于 内 容 的 检索 ) 596 
context indicators ( 语 境 指示 符 ) 314 
context modeling ( 语 境 建 模 )，316 
context units 〈 语 境 单元 ) 314 
contextual attributes (情境 属性 ) 546, 573 
contextual outlier detection 《情境 离 群 点 检测 )，546 -547，582 
with identified context (通过 识别 情境 ~), 574 
normal behavior modeling (正常 行为 建 模 ) ，574 -575 
structures as contexts (作为 情境 的 结构 )，575 
summary (概述 ) ，575 
transformation to conventional outlier detection (到 传统 离 
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contextual outliers (情境 离 群 点 ) ，545 -547, 573, S81 
example (例子 ) 546, 573 
mining (挖掘 ~), 573 -575 
contingency tables ( 列 联 表 ) 95 
continuous attributes (连续 属性 )，44 
contrasting classes (对 比 类 )，15，180 
initial working relations (初始 化 工作 关系 )，177 
prime relation ( 主 关系 ) 175, 177 
convertible constraints (可 转变 的 约束 ) 299 -300 
COPk- means algorithm ( COPk- 均值 算法 ) ，536 
core descendants 〈 核 后 代 ) , 305 
colossal patterns (巨型 模式 )，306 
merging of core patterns {( 核 模式 合并 )，306 
core patterns ( 核 模 式 ) ，304 -305 
core ratio 〈 核 比率 ) 305 
correlation analysis 〈( 相 关 分 析 ) ，94 
discretization by (通过 ~ 离散 化 ) 117 
interestingness measures ( 兴趣 度 度量 ) 264 
with lift (用 提升 度 进 行 ~ ) 266 -267 
nominal data ( 标 称 数据 的 ~ ) 95 -96 
numeric data (数值 数据 的 ~), 96-97 
redundancy and (JCR ~), 94 -98 
correlation coefficient (相关 系数 ) 94, 96 
numeric data (数值 数据 的 ~ ) 96 -97 
correlation rules (相关 规则 ) , 265, 272 
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法 )，511 
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cosine measure (余弦 度 量 ) 268 
cosine similarity 〈 余 弦 相 似 度 ) ，77 
between two term- frequency vectors ( 两 个 词 频 向 量 之 间 
的 ~), 78 
cost complexity pruning algorithm 《代价 复杂 性 前 枝 算法 ) , 345 
cotraining (协同 训练 )，432 -433 
covariance 〈 协 方差 ) 94, 97 
numeric data (数值 数据 的 ~ ) ，97 -98 
CPAR， 见 Classification based on Predictive 
Association Rules 
credit policy analysis (信用 策略 分 析 )，608 - 609 
CRM, 见 customer relationship management 
crossover operation ( 交叉 操作 ) , 426 
cross-validation (交叉 验证 ) , 370-371, 386 
k-fold (k-}f ~), 370 
leave-one-out 〈 留 一 ) 371 
in number of clusters determination ( 乌 数 确定 中 的 ~ ), 487 
stratified (分 层 ~ ) 371 
cube gradient analysis (立方体 梯 度 分 析 ) 321 
cube shells (立方 体外 索 )，192, 211 
computing (计算 ~), 211 
cube space (立方 体 空间 ) 
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discovery- driven exploration ( ~ 发 现 驱 动 的 探查 ) 231 -234 
multidimensional data analysis in ( ~ 中 的 多 维 数据 分 
析 ) ，227 -234 
prediction mining in ( ~ 中 的 预测 控 据 ) 227 
subspaces ( ~ 的 子 空间 ) ，228 - 229 
cuboid trees ( 方 体 树 ) 205 
cuboids 〔 方 体 ) 137 
apex 《顶点 ~), 111, 138, 158 
base (基本 ~), 111, 137-138, 158 
child (Fk ~), 193 
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lattice of ( ~ 的 格 ) ，139，156，179，188 - 189，234 290 
sparse (#1 ~ ) 190 
subset selection ( ~ 子 集 选择 ) 160 
见 data cubes 
curse of dimensionality 〈 维 灾难 ) 158, 179 
customer relationship management (CRM， 客 户 关 系 管理 ) ， 
619 
customer retention analysis ( 客户 忠诚 度 分 析 ) , 610 
CVQE， 见 Constrained Vector Quantization Error algorithm 
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graph (AZ ~), 14 
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multimedia (多 媒体 ~ ) 14, 596 

multiple sources (ZW ~), 15, 32 

multivariate (多 元 ~), 556 
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sample (样本 ~), 219 

similarity and dissimilarity measures ( ~ 的 相似 性 各 相 异 
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skewed ( MR} ~), 47, 271 
spatial (空间 ~), 14, 595 
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specializing ( ~ 特 化 ) 150 
statistical descriptions ( ~ 的 统计 描述 ) 44 -56 
streams ( ~ W), 598 
symbolic sequence (符号 序列 ~ ) 586, 588 -589 
temporal ( 时间 ~ ) ，14 
text (文本 ~), 14, 596 -597 
time-series (HEEJ ~ ) ，586 587 
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training (训练 ~ )，18 
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types of ( ~ 的 类 型 )，33 
Web, 597 -598 
data auditing tools (数据 审计 工具 ) 92 
data characterization (数据 特征 化 )，15，166 
attribute- oriented induction (面向 属性 的 归纳 ), 167 -172 
data mining query (数据 挖 拨 查 询 ) ，167 ~168 
example (PF), 16 
methods (773%), 16 
output (#4744), 16 
data classification ( 数据 分 类 ) JL classification 
data cleaning 〈 数 据 清理 ) 6, 85, 88-93, 120 
in back-end tools/utilities 《后 端 工 具 / 实 用 程序 中 的 ~ ) 134 
binning (分 箱 )，89 -90 
discrepancy detection (不 一 至 检测) ，91 -93 
by information network analysis (通过 信息 网 络 分 析 进 行 ~ )， 
592 — 593 
missing values 《缺失 值 ) ，88 -89 
noisy data (IERA), 89 
outlier analysis ( 离 群 点 分 析 ) 90 
pattern mining for (用 于 ~ 的 模式 挖掘 ) 318 
as process ( ~ 作为 一 个 过 程 )，91 -93 
regression ( 回归) 90 
J data preprocessing 
data constraints 《数据 约束 ) , 294 
antimonotonic 〈 反 单调 的 ) 300 
pruning data space with (用 ~ 前 枝 数据 空间 ) ，300 -301 
succinct (简洁 的 ) 300 
见 constraints 
data cube aggregation (数据 立方 体 聚 集 ) 110-111 
data cube computation 《数据 立方 体 计算 ) 156 ~160，214 -215 
aggregation and (聚集 和 ~), 193 
average () 215 
BUC, 200 ~204, 235 
cube operator ( 立方 体操 作 ) , 157 -159 
cube shells. (立方 体外 壳 ) ，211 
full (完全 ~ ) ，189 -190，195 -199 


general strategies for ( ~ 的 一 般 策略 ) 192 - 194 
iceberg (冰山 ~ ) ，160，193 - 194 
memory allocation (存储 分 配 ) 199 
methods ( ~ 方法 ) ，194 -218 ，235 
multiway array aggregation ( 多 路 数组 聚集 ) 195 - 199 
one-pass ( 一遍 扫描 ) 198 
preliminary concepts (预备 概念 ) 188 -194 
shell fragments 〈 壳 片段 ) 210-218, 235 
Star-Cubing, 204 -210 235 
data cubes (数据 立方 体 ) 10, 136, 178, 188 
3-D, 138 
4-D, 138, 139 
apex cuboid ( 顶点 方 体 ) 111, 138, 158 
base cuboid (基本 方 体 ), 111, 137-138, 158 
closed (Hj ~), 192 
cube shell (立方 体外 壳 ) , 192 
cuboids 〈 方 体 ) 137 
curse of dimensionality ( 维 灾难 ) 158 
discovery- driven exploration ( 发 现 驱动 的 探查 ) 231 -234 
example (例子 ) ，11 - 13 
full (ZL ~), 189-190, 196 -197 
gradient analysis ( 梯度 分 析 ) 321 
iceberg (冰山 ~), 160, 190-191, 201, 235 
lattice of cuboids 〈 方 体 的 格 ) 157, 234, 290 
materialization ( ~ 物化 ) 159-160, 179, 234 
measures ( ~ 度量) 145 
multidimensional ( 4# ~), 12, 136 -139 
multidimensional data mining and (多 维 数据 控 据 与 ~ ) 26 
multifeature ( 多 特征 ~ ) ，227 ，230 -231，235 
multimedia ( 多 媒体 ~ ) ，596 
prediction 《预测 ~ ) ，227 -230 235 
qualitative association mining (量化 关联 挖 据 )，289 -290 
queries (查询 ~ ) 230 
query processing (查询 处 理 ) ，218 -227 
ranking (排序 ~ ) 225 - 227 235 
sampling (抽样 ~ ) ，218 -220，235 
shell (Æ ~), 160, 211 
shell fragments (FEHBE~), 192, 210-218, 235 
sparse (ii ~), 190 
spatial (空间 ~), 595 
technology (技术 )，187 -242 
data discretization (数据 离散 化 ) ， 见 discretization 
data dispersion (数据 散布 ) 44, 48 -51 
boxplots ( 盒 图 ) 49 -50 
five-number summary 〈 五 数 概 括 ) 49 
quartiles (四 分 位 数 ) 48 -49 
standard deviation (标准 差 ) 50-51 
variance (Fj #), 50-51 
data extraction, in back-end tools/utilities (数据 提取 ， 后 端 
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工具 /实用 程序 ) ，134 
data focusing (数据 聚焦 ) 168 
data generalization (数据 泛 化 ) 179 - 180 
by attribute- oriented induction (通过 面向 属性 归纳 进 
行 ~-)，166 -178 
data integration ( 数据 集成 ) 6, 85-86, 93-99, 120 
correlation analysis ( #434} $7), 94 -98 
detection/resolution of data value conflicts (数据 值 冲 突 的 
检测 /解决 ) 99 
entity identification problem (实体 识别 问题 ) 94 
by information network analysis (通过 信息 网 络 分 析 进 
行 ~ ) 592 -593 
object matching ( 对象 匹 配 ) ，94 
redundancy and (R5 ~), 94-98 
schema (模式 ) 94 
tuple duplication (元 组 重复 ) 98 -99 
见 data preprocessing 
data marts (数据 集 市 ) 132, 142 
data warehouses versus (数据 仓库 与 ~ ) 142 
dependent (依赖 的 ~), 132 
distributed (分 布 的 ~)，134 
implementation ( ~ 实现 ) 132 
independent (独立 的 ~ )，132 
data matrix 《数据 矩阵 ) 67 -68 
dissimilarity matrix versus ( HRERS ~), 67-68 
relational table (关系 表 ) ，67 - 68 
rows and columns 〈 行 与 列 ) 68 
as two-mode matrix (二 模 矩 阵 ) 68 
data migration tools 〈 数据 迁移 工具 ) 93 
data mining (数据 控 握 ) 5-8, 33, 598, 623 
ad hoc (专门 的 ， 特 定 的 ) ，31 
applications ( ~ 应用) ，607 -618 
biological data (生物 学 数据 的 ~), 624 
complex data types (复杂 数据 类 型 的 ~), 585-598, 625 
cyber- physical system data ( 物 联网 数据 的 ~), 596 
data streams (数据 流 的 ~ ) 598 
data types for ( ~ 的 数据 类 型 ) 8 
data warehouses for (用 于 ~ 数据 仓库 ) 154 
database types and (数据 库 类 型 与 ~ ) 32 
descriptive (描述 性 ~), 15 
distributed (分 布 式 ~ ) 615, 624 
efficiency ( ~ 的 有 效 性 ) 31 
foundations, views on ( ~ 基础 ，~ 视图 ) ，600 -601 
functionalities ( ~ 功能 ) ，15 -23, 34 
graphs and networks (图 和 网 络 ~), 591 -594 
incremental ( 增 量 ~ )，31 
as information technology evolution ( ~ 作为 信息 技术 演 
AE), 2-5 
integration (集成 )，623 
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interactive (交互 ~) 30 
as interdisciplinary effort ( ~ 作为 多 学 科 的 努力 成 果 ) ， 
29 -30 
invisible (可 视 ~ ), 33, 618-620, 625 
issues in ( ~ 问题) ，29 -33，34 
in knowledge discovery (知识 发 现 中 的 ~ )，7 
as knowledge search through data ( ~ 作为 数据 中 的 知识 
搜索 ) ,6 
machine learning similarities (机 器 学 习 相 似 性 ) ，26 
methodologies ( ~ 方法) 29-30, 585 -607 
motivation for ( ~ 的 动机 ) 1 -5 
multidimensional (多 维 ~), 11 -13, 26, 33-34, 155 - 
156, 179, 227 -230 
multimedia data ( 多 媒体 数据 ~), 596 
OLAP and (OLAP 与 ~ ) 154 
as pattern/knowledge discovery process ( ~ 作为 模式 /知识 
ERAH), 8 
predictive (MWK ~), 15 
presentation/ visualization of results ( ~ 结果 的 表示 /可 视 
4%), 31 
privacy- preserving (保护 隐私 的 ~ ), 32, 621 - 622, 
624 -625, 626 
query languages ( ~ 查询 语言 ) 31 
relational databases (关系 数据 ) 10 
scalability ( 可 伸缩 性 ) 31 
sequence data 《序列 数据 ) 586 
social impacts ( ~ 的 社会 影响 ) 32 
society and (社会 与 ~ ) ，618 -622 
spatial data (空间 数据 ) 595 
spatiotemporal data and moving objects (时间 与 空间 数据 
和 移动 对 象 ~ ) 595-596, 623 -624 
statistical ( 统计 学 ) 598 
text data (文本 数据 ) ，596 -597，624 
trends ( ~ 趋势 ) , 622 -625, 626 
ubiquitous (普通 的 ~ ) 618-620, 625 
user interaction and 《用户 交互 与 ~ ), 30-31 
visual and audio (可 视 与 昕 觉 ~ ) 602 - 607，624 625 
Web data (Web 数据 ) , 597 -598，624 
data mining systems (数据 控 据 系统 ) 10 
data models (数据 模型 ) 
entity-relationship (ER， 实 体 -联系 ~), 9, 139 
multidimensional (多维 ~ ), 135 - 146 
data objects (数据 对 象 ) 40, 79 
similarity ( ~ 的 相似 性 ) 40 
terminology for ( ~ 术语) 40 
data preprocessing ( 数 预 处 理 ) ，83 - 124 
cleaning (清理 ) ，88 -93 
forms illustration (形式 图 示 ) ，87 
integration (集成 )，93 -99 


overview (概述 ) ，84 -87 
quality (质量 ) 84-85 
reduction 〈 归 约 ) 99-111 
in science applications (科学 应 用 中 的 ~ ) 612 
summary 〔〈 小 结 ) 87 
tasks in ( ~ {£8 ), 85-87 
transformation ( 变换 ) 111 -119 
data quality (数据 质量 ) 84, 120 
accuracy ( 准确 率 ) 84 
believability (可 信 性 ) 85 
completeness 〈 完 全 性 ) 84 -85 
consistency (一 致 性 ) 85 
interpretability ( 可 解释 性 ) ，85 
timeliness (时 效 性 ) ，85 
data reduction (数据 归 约 )，86,99 -111 120 
attribute subset selection (属性 子 集 选择 ) ，103 - 105 
clustering 〔〈 聚 类 ) 108 
compression 〈 上 压缩 ) 100, 120 
data cube aggregation (数据 立方 体育 集 ) 110-111 
dimensionality (维度 ) ，86 ，99 - 100，120 
histograms ( 直方 图 ) 106 -108 
numerosity (数值 ~ ) 86, 100, 120 
parametric (参数 ) 105 - 106 
principle components analysis ( 主 成 分 分 析 ) ，102 - 103 
sampling (抽样 ) 108 
strategies ( ~ 策略 ) 99 - 100 
theory ( ~ 理论 ) 601 
wavelet transforms (小 波 变换 ) 100 -~ 102 
见 data preprocessing 
data rich but information poor (数据 丰富 但 信息 贫乏 ) ，5 
data scrubbing tools (数据 清洗 工具 ) 92 
data security- enhancing techniques (增强 数据 安全 的 技 
AR), 621 
data segmentation ( 数据 分 割 ) 445 
data selection (数据 选择 ) 8 
data source view (数据 源 视图 ) 151 
data streams 〔〈 数据 流 ) ，14 ，598 624 
data transformation ( 数据 变换 ) 8, 87, 111-119, 120 
aggregation (3848), 112 
attribute construction 〈 属性 构造 ) 112 
in back-end tools/utilities 《后 端 工 具 / 实 用 程序 中 的 ~ ) 134 
concept hierarchy generation 〈 概念 分 层 产 生 ) 112, 120 
discretization 《离散 化 ) 111, 112, 120 
normalization (规范化 ) 112, 113 ~115, 120 
smoothing (光滑 )，112 
strategies ( ~ 策略 ) 112-113 
见 data preprocessing 
data types (数据 类 型 ) 
complex (复杂 ~), 166 


complex, mining (复杂 ~ fh), 585 -598 
for data mining (数据 控 气 的 ~ )，8 
data validation 《数据 有 效 性 ) 592 -593 
data visualization (数据 可 视 化 )，56 -65，79，602 -603 
complex data and relations (复杂 数据 和 关系 的 ~), 64-65 
geometric projection techniques 《几何 投影 技术 )，58 -60 
hierarchical techniques (层次 技术 )，63 -64 
icon-based techniques ( 基于 图 符 的 技术 )，60 -63 
mining process ( 挖 据 过 程 ~ ) ，603 
mining result ( 挖 据 结 果 ~ ) 603, 605 
pixel-oriented techniques (面向 像素 的 技术 ) ，57 ~58 
in science applications (科学 应 用 中 的 ~ ) 613 
summary ( ~ 小结 ) 65 
tag clouds (标签 云 ) 64, 66 
techniques ( ~ 技术 ) 39 -40 
data warehouses (数据 仓库 ) ，10 - 13， 26, 33, 125 ~185 
analytical processing (分 析 处 理 ) 153 
back-end tools/utilities ( ~ 后 端 工具 /实用 程序 ) 134, 178 
basic concepts ( ~ 基本 概念 ) ，125 - 135 
bottom -up design approach ( ~ 的 自 底 向 上 设计 方法 ) ， 
133, 151 ~152 
business analysis framework for ( ~ 的 商务 分 析 框 架 ) , 150 
business query view ( ~ 的 商务 查询 视图 ) 151 
combined design approach ( ~ 的 组 合 设计 方法 ) 152 
data mart (数据 集 市 ) 132, 142 
data mining (数据 挖掘 ) 154 
data source view ( ~ 的 数据 源 视 图 ) ，151 
design process ( ~ 的 设计 过 程 ) ，151 
development approach ( ~ 的 开发 方法 ) 133 
development tools ( ~ 的 开发 工具 ) ，153 
dimensions (2), 10 
enterprise (企业 ~ ) 132 
extractors (提取 程序 ) 151 
fact constellation (事实 星座 ) ，141 - 142 
for financial data (财经 数据 的 ~ ) ，608 
framework illustration (框架 图 示 ) ，11 
front-end client layer 《前端 客 户 层 ) 132 
gateways 〈 信 关 ) ，131 
geographic 〈 地 理 ~ ) 595 
implementation ( ~ 实现 ) 156 -165 
information processing (信息 处 理 ) 153 
integrated (集成 的 ~ ) 126 
metadata ( ~ 元 数据 ) 134 - 135 
modeling ( ~ 建 模 ) 10, 135 -150 
models ( ~ 模型) 132 -134 
multitier (JZ ~), 134 
multitiered architecture ( ~ 的 多 层 结构 ) 130-132 
nonvolatile (JEKI), 127 
OLAP server (OLAP 服务 器 ) ，132 
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operational database systems versus (操作 数据 库 系 统 与 ~ ) ， 
128 -129 
planning and analysis tools 《规划 与 分 析 工具 ) 153 
retail industry (零售 业 ) 609 -610 
in science applications (科学 应 用 中 的 ~ ) 612 
snowflake schema 〔〈 雪 花 模 式 ) ，140 -141 
star schema 〈《 星 形 模式 ) 139-140 
subject-oriented ( 面向 主题 的 ) 126 
three-tier architecture ( ~ 的 三 层 体系 结构 )，131 ，178 
time-variant (时 变 的 ) 127 
tools ( ~ 工具 )，11 
top-down design approach ( ~ 的 自 顶 向 下 设计 方法 )， 
133, 151 
top-down view 〈 自 项 向 下 视图 ) 151 
update-driven approach (更 新 驱动 的 方法 ) 128 
usage for information processing ( ~ 用 于 信息 处 理 ) 153 
view ( ~ 视图 ) 151 
virtual ( 虚拟 ~ ) 133 
warehouse database server (仓库 数据 库 服务 器 ) 131 
database management systems (DBMS, 数据 库 管 理 系统 ) ，9 
database queries (数据 库 查询 ) ， 见 queries 
databases (数据 库 ) 9 
inductive 《归纳 ~), 601 
relational (关系 ~), relational databases 
research ( ~ 研究 ) 26 
statistical (统计 ~ ) 148 -149 
technology evolution ( ~ 技术 演变 ) 3 
transactional (事务 ~ ) ，13 -15 
types of ( ~ 的 类 型 ) 32 
Web-based (基于 Web fj ~), 4 
data/pattern analysis (数据 /模式 分 析 ) ， 见 data mining 
DBSCAN, 471 -473 
algorithm illustration (算法 图 示 ) ，474 
core objects 〈 核心 对 象 ) 472 
density estimation (密度 估计 ) 477 
density- based cluster (基于 密度 的 聚 类 ) 472 
density-connected (密度 连接 的 ) 472 ，473 
density-reachable (密度 可 达 的 ) 472, 473 
directly density- reachable (直接 密度 可 达 的 )，472 
neighborhood density ( 邻 域 密度 ) 471 
见 cluster analysis, density- based methods 
DDPMine, 422 


decimal scaling, normalization by (小 数 定 标 ， 通 过 ~ 规范 


化 ) ，115 
decision tree analysis, discretization by (决策 树 分 析 ， 通 过 ~ 
离散 化 ) 116 
decision tree induction ( 决策 树 归 纳 ) 330 ~350, 385 
algorithm differences (算法 的 区 别 ) 336 
algorithm illustration (算法 图 示 ) 333 
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attribute selection measures (属性 选择 度量 )，336 -344 
attribute subset selection (属性 子 集 选择 )，105 
C4.5, 332 
CART, 332 
CHAID, 343 
gain ratio ($9254), 340 -341 
Gini index 〈 基 尼 指 数 ) 332, 341 - 343 
(D3, 332 
incremental versions ( 增 量 版 本 ) 336 
information gain (信息 增益 )，336 -340 
multivariate splits ( 多 元 分 型 ) 344 
parameters ( 参数) 332 
scalability and (可 伸缩 性 与 ~ ) 347 -348 
splitting criterion 〈( 分裂 准则 ) 333 
from training tuples 〈 由 训练 元 组 ) 332 - 333 
tree pruning 〈 树 剪 梳 ) 344 -347，385 
visual mining for (用 于 ~ 的 可 视 化 挖掘)，348 - 350 
decision trees (22484), 18, 330 
branches (4}32), 330 
illustrated (fax), 331 
internal nodes ( 内 部 结 点 ) 330 
leaf nodes 《树叶 结 点 ) 330 
pruning ( 剪 枝 ) 331, 344 ~ 347 
root node (HAM), 330 
rule extraction from ( ~ 中 规则 提取 ) , 357 -359 
deep Web 〈 深 层 网 ) 597 
default rules (SRiA MEI) , 357 
DENCLUE, 476 -479 
advantages (优点 ) 479 
clusters (#%) , 478 
density attractor ( 密度 吸引 点 ) 478 
density estimation (密度 估计 ) ，476 
kernel density estimation (Eikit), 477 -478 
kernels (f%) , 478 . 
A, cluster analysis, density- based methods 
dendrograms ( 系统 树 图 ) ，460 
densification power law ( 笛 化 寡 率 ) 592 
density estimation (密度 估计 ) ，476 
DENCLUE, 477 -478 
kernel function (PRX), 477 -478 
density- based methods (基于 密度 的 方法 ) 449, 471 - 
479, 491 
DBSCAN, 471 -473 
DENCLUE, 476 -479 
object division ( 对象 分 裂 ) 449 
OPTICS, 473 —476 
STING as, 480 
见 cluster analysis 


density- based outlier detection (基于 密度 的 离 群 点 检测 ) ， 


564 -567 
local outlier factor ( 局 部 离 群 点 ) 566 - 567 
local proximity 《局 部 邻近 性 ) , 564 
local reachability density 〈 局 部 可 达 密 度 ) ，566 
relative density ( 相对 密度 ) 565 
descendant cells (后 代 单 元 ) 189 
descriptive mining tasks (描述 性 挖掘 任务 )，15 
DIANA (Divisive Analysi， 分 裂 分 析 ) 459, 460 
dice operation ( 切 块 操作 ) ，148 
differential privacy 〈 差 动 隐私 ) 622 
dimension tables ( 维 表 ) 136 
dimensional cells ( 维 单元 ) 189 
dimensionality reduction (#6325), 86, 99-100, 120 
dimensionality reduction methods ( 维 归 约 方法 ) 510, 
519 - 522, 538 
dist of ( ~ 的 列表 ) ，587 
spectral clustering ( 谱 聚 类 ) , 520 -522 
dimension/level ( 维 / 层 ) 
application of ( ~ 应 用 ) 297 
constraints 《 约束 ) 294 
dimensions ( 维 ) 10, 136 
association rule (关联 规则 ) ，281 
cardinality of ( ~ 的 势 ) 159 
concept hierarchies and ( 概念 分 层 和 ~), 142 - 144 
in multidimensional view ( 多维 视 图 ) 33 
ordering of ( ~ 的 次 序 ) 210 
pattern 〈 模式 ) 281 
ranking (排序 ， 秩 评定 ) 225 
relevance analysis ( ~ 相关 分 析 ) 175 
selection ( ~ 选择 ) 225 
shared ( 共享 ~), 204 
见 data warehouses 
direct discriminative pattem mining (有 区 别 力 的 模式 直接 挖 
#8), 422 
directed acyclic graphs (有 向 无 环 图 )，394 -395 
discernibility matrix 〈 识 别 和 矩阵 ) ，427 
discovery- driven exploration (发 现 驱动 的 探查 ) ，231 -234，235 
discrepancy detection ( 偏差 检测 ) 91 -93 
discrete attributes 〈 离 散 属性 ) ，44 
discrete Fourier transform ( DFT， 离散 傅 里 叶 变 换 ) 101, 587 
discrete wavelet transform (DWT， 离 散 小 波 变换 ) ，100 - 
102, 587 
discretization ( 离散 化 ) 112, 120 
by binning (通过 分 箱 ~ ) 115 
by clustering (iii BA ~), 116 
by correlation analysis (通过 相关 分 析 ~ ) 117 
by decision tree analysis (通过 决策 树 归纳 ~ ) 116 
by histogram analysis (通过 直方 图 分 析 ~ )，115 -116 
techniques ( ~ 技术 ) 113 


discriminant analysis (判别 分 析 ) ，600 
discriminant rules (判别 式 规 则 ) ，16 
discriminative frequent pattern- based classification (基于 有 区 
别 力 的 频繁 模式 分 类 ) ，416，419 -422, 437 
basis for ( ~ 的 基础 ) 419 
feature generation (特征 生成 )，420 
feature selection (特征 选择 )，420 -421 
framework (框架 )，420 -421 
learning of classification model (分 类 模型 的 学 习 ) 421 
dispersion of data (数据 的 散布 ) 44, 48 -51 
dissimilarity ( 相 异 性 ) 
asymmetric binary ( 非 对 称 的 二 元 ~ ) 71 
between attributes of mixed type (混合 类 型 属性 的 ~ )， 
76 -77 
between binary attributes (二 元 属性 的 ~), 71 -72 
measuring (度量 ~ ) 65-78, 79 
between nominal attributes ( 标 称 属性 的 ~), 69 
on numeric data (数值 数据 的 ~), 72 -74 
between ordinal attributes, ( 序数 属性 的 ~) 75 
symmetric binary ( 对 称 的 二 元 属性 的 ~), 70-71 
dissimilarity matrix 〈( 相 异性 矩阵) 67, 68 
data matrix versus (数据 矩阵 与 ~ ) 67-68 
n-by-atable representation (n xn 表 表 示 ) 68 
as one- mode matrix (一 模 和 矩阵 ) ，68 
distance measures (距离 度量 ) 461 -462 
Euclidean 〈 欧 几 里 得 ~ ， 欧 氏 ~ ) ，72 -73 
Manhattan (曼哈顿 ~ )，72 -73 
Minkowski (闵可夫 斯 基 ~ ) 73 
supremum (上 确 界 ~ ) ，73 -74 
types of (距离 的 类 型 )，72 
distance- based cluster analysis (基于 距离 的 聚 类 分 


Bt), 445 
distance- based outlier detection (基于 距离 的 离 群 点 检 
Wi), 561 -562 


nested loop algorithm ( REMAR), 561, 52 
J outlier detection 
distributed data mining (分 布 式 数 据 挖掘) ， 615, 624 
distributed privacy preservation 〈 分 布 式 隐私 保护 ) 622 
distributions 〈 分 布 ) 
boxplots for visualizing (用 于 观察 的 全 图 ) 49-50 
five- number summary (五 数 概括 ) 49 
distributive measures 《分布 式 度量 ) 145 
Divisive Analysis (DIANA ， 分 裂 分 析 ) 459, 460 
divisive hierarchical method 〔 分 型 层次 方法 ) 459 
agglomerative hierarchical clustering versus ( 凝聚 层次 聚 类 
与 ~ ) ，459 -460 
DIANA, 459, 460 
DNA chips (DNA 图 谱 ) 512 
document classification 〈 文 梢 分 类 ) , 430 


documents (文档 ) 

language model (语言 模型 ) 26 

topic model ( 主题 模型 ) ，26 -27 
drill- across operation ( 销 过 操作 ) 148 
drill-down operation (下 钻 操 作 ), 11, 146 - 147 
drill-through operation ( 钻 透 操作 ) ，148 
dynamic itemset counting ( 动态 项 集 计 数 ) 256 
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eager learners (急切 学 习 ) 423, 437 
Eclat ( Equivalence Class Transformation) algorithm ( 等 价 类 
变换 算法 ) 260, 272 
e-commerce (电子 商务 ) 609 
editing method ( 编辑 方法 ) ，425 
efficiency (有 效 性 ) 
Apriori algorithm ( Apriori 算法 的 ~ ) 255 -256 
backpropagation (后 向 传播 ) 404 
data mining algorithms (数据 挖掘 算法 ) 31 
elbow method ( 肘 方 法 ) 486 
email spam filtering ( 垃圾 邮件 过 滤 ) 435 
engineering applications (工程 应 用 ) 613 
ensemble methods (组 合 方法 )，378 —379, 386 
bagging (448), 379 - 380 
boosting (提升 )，380 - 382 
for class imbalance problem (类 不 平衡 问题 的 ~ ) 385 
random forests ( 随机 森林 ) ，382 -383 
types of ( ~ 的 类 型 ) 378, 386 
enterprise warehouses (企业 仓库 ) 132 
entity identification problem (实体 识别 问题 ) 94 
entity -relationship (ER) data model (实体 -联系 数据 模 
型 ) 9, 139 
epoch updating (周期 更 新 ) 404 
equal-frequency histograms (等 频 直 方 图 )，107, 116 
equal- width histograms ( 等 宽 直方 图 ) 107, 116 
equivalence classes ( 等 价 类 ) 427 
error rates (错误 率 )，367 
error- correcting codes ( 纠 错 码 ) 431 -432 
Euclidean distance ( 欧 几 里 得 距离 ， 欧 氏 距离 )，72 
mathematical properties ( ~ 的 数学 性 质 ) ，72 -73 
weighted (加 权 的 ~), 74 
见 distance measures 
evaluation metrics (评估 度量 ) 364 -370 
evolution, of database system technology (数据 库 系统 技术 
演变 ) ,3 -5 
evolutionary searches (循序 渐进 的 搜索 ) 579 
exception- based, discovery-driven exploration ( 基于 异常 的 、 
发 现 驱动 的 探查 ) 231-234, 235 
exceptions (5:7), 231 
exhaustive rules ( 穷 举 的 规则 ) , 358 


450 + R 引 


expectation- maximization (EM) algorithm (期 望 最 大 化 算 
法 )，505 —508, 538 
expectation step (E-step, H25), 505 
fuzzy clustering with 《使 用 ~ 的 模糊 聚 类 ) 505 -507 
maximization step (M-step， 最 大 化 步 ) 505 
for mixture models (混合 模型 ) 507 -508 
for probabilistic model-based clustering ( 基于 概率 模型 的 
FEA) , 507 - 508 
steps 《步骤 ) 505 
见 probabilistic model-based clustering 
expected values 《期 望 值 ) 97 
cell (单元 的 ~ ) 234 
exploratory data mining (探索 式 数据 挖掘 ) ， 见 mujtidimen- 
sional data mining 
extraction (提取 ) 
data ( ~ 数据) ，134 
rule, from decision tree (由 决策 树 ~ ALM) , 357 -359 
extraction/transformation/loading (ETL) tools (提取 /变换 / 
RATA), 93 
extractors ( 提取 程序 ) 151 
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fact constellation (事实 星座 ) 141 
example (HF), 141 -142 
illustrated (FAR), 142 
fact tables (FXE), 136 
summary (小结 ) 165 
factor analysis ( 因素 分 析 ) ，600 
facts (事实 ) 136 
false negatives (RH), 365 
false positives (REH), 365 
farthest- neighbor clustering algorithm ( A it 46 R A KB 
法 ) 462 
field overloading 《字段 过 载 ) 92 
financial data analysis ( 财经 数据 分 析 ) 607 - 609 
credit policy analysis (信贷 政策 分 析 ) 608 -609 
crimes detection (犯罪 侦破 ) 609 
data warehouses (数据 仓库 ) 608 
loan payment prediction (贷款 偿还 预测 ) 608 - 609 
targeted marketing 〈 目标 行销 ) 609 
FindCBLOF algorithm (FindCBLOF 算法 ) 569 -570 
five-number summary (五 数 概括 ) 49 
fixed-width clustering (固定 宽度 聚 类 ) 570 
FOIL, 359, 363, 418 
Forest-RC, 383 
forward algorithm (前 向 算法 ) 591 
FP-growth (FP- 增 长 ) 257 -259, 272 
algorithm illustration (算法 图 示 ) ，260 
example ( 例子 ) 257 -258 


performance (PERE), 259 
FP-trees (FP-#8t) , 257 
condition pattern base (条 件 模式 基 ) , 258 
construction ( ~ 构造) 257 -258 
main memory-based (基于 内 存 的 ) , 259 
mining 〈 控 据 ) 258, 259 
Frag-Shells, 212, 213 
fraudulent analysis (欺诈 检测 ) , 610 -611 
frequency patterns 《频繁 模式 ) 
approximate (近似 的 ~)，281，307 -312 
compressed (压缩 的 ~ ) 281, 307 -312 
constraint-based ( 基于 约束 的 ~ ) 281 
near-match 《近似 匹配 的 ~), 281 
redundancy- aware top-k 《感知 元 余 的 top- ~), 281 
top-k, 281 
frequent itemset mining 〈 频繁 项 集 控 据 ) 18, 272, 282 
Apriori algorithm (Apriori 算法 ) 248 -253 
closed patterns ( 闭 模 式 ) 262 - 264 
market basket analysis 〈 购物 篮 分 析 ) , 244 -246 
max pattems ( 极 大 模式 )，262 -264 
methods ( ~ 方法 ) 248 -264 
pattern- growth approach (模式 增长 方法 ) ，257 -259 
with vertical data format (使 用 垂直 数据 格式 ) 259-262, 272 
frequent itemsets (MAIE), 243, 246, 272 
association rule generation from (由 ~ 产生 关联 规则 )， 
253, 254 
closed (fj ~ ) 247, 248, 262 -264, 308 
finding ( 找 出 ~ ) 247 
finding by confined candidate generation (通过 受 限 的 候选 
产生 找 出 ~ ) 248 -253 
maximal ( 极 大 ~), 247, 248, 262-264, 308 
subsets ( 子 集 ) 309 
frequent pattern mining ( 频繁 模式 控 据 ) 279 
advanced forms of pattems (模式 的 高 级 形式 ) 320 
application domain-specific semantics ( 特定 应 用 领域 的 语 
X), 282 
applications (应 用 ) ，317 -319，321 
approximate patterns (近似 模式 ) 307 -312 
classification criteria (分 类 标准 ) 280 -283 
colossal pattems ( 巨型 模式 ) 301 -307 
compressed patterns 《压缩 的 模式 ) 307 -312 
constraint-based (基于 约束 的 ) 294 -301, 320 
data analysis usages (数据 分 析 用 法 ) 282 
for data cleaning (用 于 数据 清理 ) 318 
direct discriminative ( 直接 有 区 分 力 的 ~), 422 
high-dimensional data 《高 维 数 据 )，301 -307 
in high-dimensional space (高 维 空间 中 的 ~ ) 320 
in image data analysis (图 像 分 析 中 的 ~), 319 
for indexing structures (用 于 索引 结构 ~), 319 


kinds of data and features (数据 和 特征 的 类 型 ) 282 
multidimensional associations ( 多 维 关联 ) ，287 -289 
in multilevel, multidimensional space ( 多 层 、 多 维 空间 中 
的 ~)，283 -294 
multilevel associations (多 层 关联 )，283 -294 
in multimedia data analysis (多 媒体 数据 分 析 中 的 ~), 319 
negative patterns 〈《 负 模式 ) 291 -294 
for noise filtering (MIYE), 318 
Pattern-Fusion (模式 融合 ) 302 -307 
quantitative association rules ( 量化 关联 规则 ) ，289 -291 
rare patterns (稀有 模式 )，291 -294 
in recommender systems 《推荐 系统 中 的 ~ ) 319 
road map ( ~ 路 线 图 ) 279 -283 
scalable computation and ( 可 伸缩 计算 与 ~ ) ，319 
scope of ( ~ 的 范围 ) 319 -320 
in sequence or structural data analysis ( 序列 或 结构 数据 分 
析 中 的 ~ ) ，319 
in spatiotemporal data analysis 《时 间 空 间 数据 分 析 中 的 ~ )，319 
for structure and cluster discovery (结构 每 类 发 现 的 ~ ) 318 
for subspace clustering ( 子 空间 聚 类 的 ~ ) ，318 -319 
in time-series data analysis (时 间 序 列 数据 分 析 的 ~ ) 319 
top-k, 310 
in video data analysis (视频 数据 分 析 的 ~ ) 319 
JL frequent patterns 
frequent pattern- based classification (基于 频繁 模式 的 分 
类 )，415 -422，437 
associative (关联 ) ,415, 416 -419 
discriminative (有 区 分 力 的 ) 416, 419 -422 
framework 〔 框 架 ) 422 
frequent patterns 《频繁 模式 ) 17, 243 
abstraction levels (抽象 层 ) 281 
association rule mapping (关联 规则 映射 ) 280 
basic (基本 ~ ) 280 
closed (HJ ~), 262-264, 280 
concepts 《概念 ) 243 ~244 
constraint-based (基于 约束 的 ~), 281 
dimensions 〈 维 ) 281 
diversity ( ~ 的 多 样 性 ) 280 
exploration ( ~ RÆ), 313 -319 
growth ( ~ 增长 ) 257 ~259, 272 
max 〈 极 大 ~ ) 262-264, 280 
mining (4848 ~), 243-244, 279 -325 
mining constraints or criteria ( 控 握 约束 或 标准 ) 281 
number of dimensions involved in ( ~ 涉及 的 维 数 ) ，281 
semantic annotation of ( ~ 的 语义 注释 ) 313 -317 
sequential (序列 ) 243 
strong associations 〈 强 关联 ) 437 
structured (结构 化 ~), 243 
trees ( ~ 树 ) ，257 -259 
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types of values in ( ~ 中 的 值 的 类 型 ) 281 
frequent subgraphs (频繁 子 图 ) 591 
front-end client layer (前 端 客户 层 )，132 
full materialization (完全 物化 )，159,， 179, 234 
fuzzy clustering (模糊 聚 类 ) , 499-501, 538 
data set for ( ~ 的 数据 集 ) 506 
with EM algorithm (使 用 EM 算法 ~ ) 505 -507 
example 〈 例 子 ) 500 
expectation step (了 -step ， 期 望 步 ) 505 
flexibility 〈 灵 活性 ) 501 
maximization step (M-step， 最 大 化 步 ) 506 -507 
partition matrix (划分 矩阵 ) 499 
as soft clusters (fEW SRE), 501 
fuzzy logic (AZ), 428 
fuzzy sets (模糊 集 ) ，428 -429, 437, 499 
evaluation (#74), 500 -501 
example (il), 499 
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gain ratio (增益 率 ) 340 
C4.5 use of (C4. 5 使 用 ~ ) 340 
formula (285%), 341 
maximum (ix), 341 
gateways (MYX), 131 
gene expression (基因 表达 ) 513 -514 
generalization (24) 
attribute 《属性 ~ )，169 -170 
attribute, control (属性 ~ ， 控 制 ) 170 
attribute, threshold control (属性 ~ ， 控 制 PATA), 170 
in multimedia data mining (多媒体 数据 控 搓 中 的 ~ ) 596 
process ( ~it##), 172 
results presentation ( ~ 结果 表示 ) 174 
synchronous (同步 ~ ) 175 
generalized linear models 〈 广 义 线性 模型 ) 599 -600 
generalized relations (广义 关系 ) 
attribute-oriented induction (面向 属性 归纳 ) 172 
presentation of ( ~ 的 表示 ) 174 
threshold control ( 阔 值 控制 ) ，170 
generative model (生成 模型 ) 467 -469 
genetic algorithms 【遗传 算法 ) 426 -427 ，437 
genomes ( 基因 组 ) 15 
geodesic distance ( WHE), 525-526, 539 
diameter (直径 ) 525 
eccentricity (离心 率 ) 525 
measurements based on (基于 ~ 的 度量 ) 526 
peripheral vertex ( 外围 顶点 )，525 
radius (半径 )，525 
geographic data warehouses (地 理 数据 仓库 ) 595 
geometric projection visualization (几何 投影 可 视 化 )，58 -60 
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Gini index (基尼 指数 ) 341 
binary indexes (二 元 指数 )，341 
CART use of (CART 使 用 ~ ) ，341 
decision tree induction using (使 用 ~ 的 决策 树 归 纳 )， 
342 -343 
minimum 〈 最 小 ) 342 
partitioning and (划分 和 ~), 342 
global constants, for missing values (全 局 常量 ， 用 于 缺失 
ffi), 88 
global outliers (全 局 离 群 点 ) 545, 581 
detection ( ~ 检测 )，545 
example (F), 545 
Google (谷歌 ) 
Flu Trends (流感 趋势 ) ，2 
popularity of ( ~ 的 流行 ) 619 -620 
gradient descent strategy ( 梯度 下 降 策 略 ) ，396 - 397 
algorithms (算法 ) 397 
greedy hill-climbing (贪心 息 山 ) , 397 
as iterative ( 迭代) ，396 -397 
graph and network data clustering (图 与 网 络 数据 聚 类 )， 
497, 522 - 532, 539 
applications ( MJH), 523 -525 
bipartite graph (Æ), 523 
challenges (HERR), 523 -525, 530 
cuts and clusters ( #54), 529 -530 
generic method ( 一 般 方法 ) 530 -531 
geodesic distance ( 测 地 上 距 ) 525 -526 
methods (方法 ) 528 -532 
similarity measures ( 相似 性 度量 ) , 525 -528 
SimRank, 526 -528 
social network (社会 网 络 ) 524 -525 
Web search engines ( Web 搜索 引擎 ) 523 -524 
J cluster analysis 
graph cuts (AAR), 539 
graph data ( 图 数据 ) 14 
graph index structures (图 索引 结构 ) 591 
graph pattern mining (图 模式 挖掘 ) 591-592, 612 -613 
graphic displays ( 图形 显示 ) 
data presentation software ( 数据 表示 软件 ) ，44 -45 
histogram ( 直方 图 ) 54, 55 
quantile plot (分 位 数 图 ) 51 -52 
quantile-quantile plot (分 位 数 -分 位 数 图 )，52 -54 
scatter plot ( 散 点 图 ) ,54 - 56 
greedy hill-climbing ( R-OH), 397 
greedy methods, attribute subset selection (贪心 方法 ,属性 
THEA), 104-105 
grid-based methods (基于 网 格 的 方法 )，4S$0，479 - 
483, 491 
CLIQUE, 481 -483 


STING, 479 -481 
JL cluster analysis 
grid-based outlier detection (基于 网 格 的 离 群 点 检测 )， 
562 ~ 564 
CELL method (CELL 方法 ) 562, 563 
cell properties 〈 单 元 性 质 ) , 562 
cell pruning rules 〈 单 元 剪 枝 规则 ) ，563 
见 outjier detection 
group-based support (基于 组 的 支持 度 ) 286 
group-by clause (group-by 子 句 ) 231 
grouping attributes (分 组 属性 ) 231 
grouping variables (分 组 变量 ) 231 
Grubb’ s test (Grubb 检验 ) 555 
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hamming distance ( 汉 明 距离 ) 431 
hard constraints (BE2ZQ35R), 534, 539 

example 〈 例 子 ) 534 

handling (处 理 ) 535 -536 
harmonic mean 《调和 均值 ) 369 
hash- based technique (基于 散 列 的 技术 ) 255 
heterogeneous networks ( 异 质 网 络 ) ，592 

classification of ( ~ 的 分 类 ) ，593 

clustering of ( ~ KRÆ), 593 

ranking of ( ~ 的 秩 评定 ) 593 
heterogeneous transfer learning (混杂 迁移 学 习 ) 436 
hidden Markov model (HMM， 隐 马尔 科 夫 模型 ) 590, 591 
hierarchical methods (层次 方法 )，449,457 -470，491 

agglomerative ( 凝聚 的 ) 459 -461 

algorithmic 〈 算 法 的 ) 459, 461 -462 

Bayesian 〈 贝 叶 斯 ) 459 

BIRCH, 458, 462 ~ 466 

Chameleon ($E), 458, 466 -467 

complete linkages (全 链 ) 462, 463 

distance measures (PRE H), 461 -462 

divisive (划分 ) ，459 -461 

drawbacks (缺点 ) 449 

merge or split points and (合并 或 分 裂 点 与 ~ ) 458 

probabilistic 〔 概率 ) 459, 467 ~470 

single linkages (〈 单 链接 ) 462, 463 

见 cluster analysis 

hierarchical visualization (层次 可 视 化 ) 63 

treemaps ( 树 图 )，63,，65 

Worlds-within- Worlds (世界 中 的 世界 )，63，64 
high-dimensional data (高 维 数据 ) 301 

clustering ( ~ 聚 类 ) 447 

data distribution of ( ~ 的 数据 分 布 ) 560 

frequent pattern mining ( ~ 频繁 模式 挖掘 ) 301 -307 

outlier detection in ( ~ 离 群 点 检测 ) 576 -580, 582 


row enumeration 〈 行 枚 举 ) 302 
high- dimensional data clustering ( 高 维 数 据 聚 类 ) ，497， 
508 - 522, 538, 553 
biclustering ( 双 育 类 ),，512 -519 
dimensionality reduction methods ( ~ 维 归 约 方法 ) 510, 
519 -522 
example (例子 )，508 -509 
problems, challenges, and methodologies ( ~ 的 问题 、 挑 
战 和 方法 ) ，508 -510 
subspace clustering methods ( 子 空间 聚 类 方法 )，509， 
510 -511 
J cluster analysis 
HilOut algorithm ( HiOut 算法 ) 577 -578 
histograms ( 直方 图 ) 54, 106-108, 116 
analysis by discretization 〈 通过 离散 化 分 析 ) 115-116 
attributes 〈 属性 ) 106 
binning (分 箱 ) 106 
construction 〈 构造 ) 559 
equal-frequency (等 频 ~ ) 107 
equal- width ($F ~), 107 
example (例子 ) 54 
illustrated (Pax), 55, 107 
multidimensional ( 多维 ~), 108 
as nonparametric model ( ~ 作为 非 参 数 模型 ) 559 
outlier detection using (使 用 ~ 检测 离 群 点 ) 558 -560 
holdout method (保持 方法 ) 370, 386 
holistic measures (整体 度量 ) 145 
homogeneous networks 〈 同 质 网 络 ) 592 
classification of ( ~ 的 分 类 )，593 
clustering of ( ~ 的 聚 类 ) 593 
Hopkins statistic ( 埠 普 金 斯 统计 量 ) 484 -485 
horizontal data format (垂直 数据 格式 ) ，259 
hybrid OLAP (HOLAP, W£ OLAP), 164-165, 179 
hybrid- dimensional association rules (混合 维 关联 规则 ) , 288 


IBM Intelligent Miner (IBM R pEi HAA), 603, 606 
iceberg condition 《冰山 条 件 ) 191 
iceberg cubes (冰山 立方 体 )，160,， 179, 190, 235 
BUC construction (BUC 构造 ) 201 
computation (计算 ) 160, 193-194, 319 
computation and storage ( 计算 和 存储 ) ，210 -211 
computation with Star-Cubing algorithm (使 用 Star- Cubing 
算法 计算 ) 204 -210 
materialization ( 物化) 319 
specification of ( ~ 说 明 ) ，190 -191 
见 data cubes 
icon- based visualization ( 基于 图 符 的 可 视 化 ) 60 
Chernoff faces (HWRE), 60-61 
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stick figure technique ( 人物 线条 图 技术 ) 61 -63 
见 data visualization 
ID3, 332, 385 
greedy approach (贪心 方法 ) 332 
information gain (信息 增益 )，336 
见 decision tree induction 
IF -THEN rules (IF-THEN 规则 ) , 355 -357 
accuracy ( 准确 率 ) 356 
conflict resolution strategy ( 冲突 解决 策略 ) 356 
coverage 〈 覆 盖 率 ) 356 
default rule ( 缺 省 规则 ) ，357 
extracting from decision tree 《由 决策 树 提 取 ~ ) ，357 
fom 〈 形 式 ) 355 
tule antecedent (规则 前 件 ) 355 
rule consequent (规则 后 件 )，355 
tule ordering (规则 序 ) ，357 
satisfied (满足 )，356 
triggered (触发 ) 356 
image data analysis (图像 数 据 分 析 ) 319 
imbalance problem (不 平衡 问题 )，367 
imbalance ratio (IR ， 不 平衡 率 ) 270 
skewness 〈 倾 斜 ) 271 
inconvertible constraints (不 可 转变 的 约束 )，300 
incremental data mining ( 增 量 数 据 挖 据 ) 31 
indexes 《 索引， 指数 ) 
bitmapped join (位 图 连接 索引 ) 163 
composite join (复合 连接 索引 ) 162 
Gini (基尼 指数 )，332，341 -343 
inverted ( 倒 排 案 引 )，212, 213 
indexing (索引 ) 
bitmap 〈 位 图 ~), 160-161, 179 
bitmapped join (位 图 连接 ~ ) 179 
frequent pattern mining for (用 于 ~ 的 频繁 模式 控 
#8), 319 
join (324% ~), 161-163, 179 
OLAP ( ~OLAP), 160 -163 
inductive databases ( 归纳 数据 库 ) 601 
inferential statistics (推断 统计 ) 24 
information age, moving toward (信息 时 代 ， Hm), 1-2 
information extraction systems ( 信息 检索 系统 )，430 
information gain (信息 增益 ) 336 -340 
decision tree induction using (使 用 ~ 的 决策 BAA), 
338 — 339 
ID3 use of (ID3 使 用 ~ ) 336 
pattem frequency support versus 〈 模 式 频繁 支持 度 与 ~ ) 421 
split- poin (IFRA), 340 
information networks 〈 信 息 网 络 ) 
analysis ( ~ 分 析 ) ，592 -593 
evolution of ( ~ 的 演变 ) ，594 
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link prediction in ( ~ 中 的 链接 预测 ) ，593 -594 discriminative classifiers (有 区 别 力 的 分 类 器 )，615 
mining (挖掘 ~ ) 623 distributed data mining (分 布 式 数据 控 据 ) ，615 
OLAP in ( ~ 中 的 OLAP) 594 signature-based (基于 特征 的 ~), 614 
role discovery in ( ~ 中 的 角色 发 现 ) ，593 -594 stream data analysis ( 流 数 据 分 析 )，615 
similarity search in ( ~ 中 的 相似 性 搜索 ) ，594 visualization and query tools (可 视 化 与 查询 工具 )，615 
information processing (信息 处 理 ) 153 inverted indexes ( 倒 排 索引 )，212，213 
information retrieval (IR， 信 息 检 索 ) ，26 - 27 invisible data mining ( 可 视 数 据 挖掘) 33, 618 -620，625 
challenges (HEAR), 27 IQR, J interquartile range 
language model (语言 模型 ) 26 IR, J information retrieval 
topie model ( 拓扑 模型 ) 26 -27 item merging 〈 项 合并 ) 263 
informativeness model (提供 信息 的 模型 ) 535 item skipping (项 跳 过 ) ，263 
initial working relations 〈 初 始 工作 关系 ) 168, 169, 177 items (JH), 13 
instance-based learners ( 基于 实例 的 学 习 )， 见 lazy learners itemsets (项 集 ) 246 
instances, constraints on ( 实例，~ 上 的 约束 ) 533, 539 candidate 《候选 ~ ) 251, 252 
integrated data warehouses ( 集成 的 数 仓 库 ) ，126 dependent (依赖 的 ) ，266 
integrators (集成 程序 ) ，127 dynamic counting (动态 计数 ) ，256 
intelligent query answering (智能 查询 回答 ) 618 imbalance ratio (JIR， 不 平衡 率 ) 270, 271 
interactive data mining (交互 式 数据 控 气 ) 604, 607 negatively correlated 〈 负 相关 的 ) 292 
interactive mining (交互 式 控 据 ) 30 occurrence independence (出 现 的 独立 性 )，266 
intercuboid query expansion ( 方 体 间 查询 扩展 ) 221 strongly negatively correlated ( 强 负 相 关 的 )，292 
example (例子 )，224 -225 JL frequent itemsets 
method (FÆ), 223 -224 iterative Pattem-Fusion ( 迭代 的 模式 融合 ) 306 
interdimensional association rules ( 维 间 关 联 规则 ) ，288 iterative relocation techniques (和 迭代 重 定位 技术 ) 448 
interestingness (兴趣 度 ) 21-23 
assessment methods 〈 评 估 方 法 ) 23 J 


expected (期望 的 ) 22 
objective measures (客观 度量 ) ，21 -22 
strong association rules ( 强 关联 规则 ) , 264 -265 


Jaccard coefficient (Jaccard 系数 ) ，71 
join indexing (连接 索引 )，161 -163, 179 


subjective measures 〈 主观 度量 ) 22 K 
threshold ( ~ W4), 21 -22 
unexpected (出 乎 预料 的 ) ，22 k-anonymity method (k EZI), 621 - 622 
interestingness constraints ( 兴趣 度 约束 ) 294 Kamsh - Kuhn- Tucker ( KKT} conditions ( Karush- Kuhn- 
application of ( ~ 的 应 用 ) ，297 Tucker 条 件 ) ，412 
interpretability ( 可 解释 性 ) k-distance neighborhoods (k- FE BY SBIR) , 565 
backpropagation and (后 向 传播 与 ~ ) 406 - 408 kernel density estimation ( 核 密度 估计 ) 477 -478 
classification (分 类 ) 369 kernel function (AZ), 415 
cluster analysis ( #364}#7) , 447 k-fold cross-validation (kk- 折 交叉 验证 ) 370 -371 
data (数据 ) ，85 k-means (kk- 均 值 )，451 -454 
data quality and (数据 质量 与 ~ ) 85 algorithm (算法 ) ，452 
probabilistic hierarchical clustering (概率 层次 聚 类 ) 469 application of ( ~ 的 应 用 ) 454 
interquartile range (IJQR， 四 分 位 数 极 差 ) 49, 555 CLARANS，457 
interval- scaled attributes (区 间 标 度 属性 ) 43, 79 within- cluster variation (和 内 方差 ) 451, 452 
intracuboid query expansion ( 方 体内 查询 扩展 ) 221 clustering by (HH ~ 3826), 453 
example (例子 ) 223 drawback of ( ~ 的 缺点 ) 454 -455 
method (方法 ) 221 -223 scalability 〈 可 伸缩 性 ) 454 
intradimensional association rules 〈 维 间 关 联 规 则 ) ，287 time complexity (时 间 复 杂 度 ) 453 
intrusion detection (人 侵 检 测 )，569 -570 variants ( ~ 的 变形 )，453 -454 
anomaly-based (基于 异常 的 ~ ) 614 k-means clustering (k- 均值 聚 类 ) 536 


data mining algorithms 〈 数 据 控 据 算法 ) 614 -615 k-medoids (k- Huts), 454 -457 


absolute-error criterion (绝对 误差 标准 ) ，455 
cost function for ( ~ 的 代价 函数 ) 456 
PAM, 455 -457 


k- nearest-neighbor classification (k- 最 近邻 分 类 ) , 423 


closeness (接近 性 ) 423 


distance- based comparisons (基于 距离 的 比较 )，425 


editing method (编辑 方法 ) 425 
missing values and (缺失 值 与 ~ ) 424 
number of neighbors (近邻 数 ) 424 -425 
partial distance method (部 分 距离 方法 ) ，425 
speed (速度 )，425 
knowledge (知识 ) 
background (背景 ~)，30 -31 
mining ($H), 29 
presentation (提供 ) ,8 
representation ( 表示 ) 33 
transfer (£), 434 
knowledge bases ( 知识 库 ) 5, 8 
knowledge discovery (知识 发 现 ) 
data mining in ( ~ 中 的 数据 挖掘 ) 7 
process ( ~ 过程 ) 8 


knowledge discovery from data (KDD， 由 数据 中 发 现 知 识 ) 6 


knowledge extraction ( 知识 提取 ) ， 见 data mining 
knowledge mining 《知识 挖 气 ) ， 见 data mining 
knowledge type constraints 《知识 类 型 约束 ) ，294 
-predicate sets (k- 谓 词 集 ) 289 

Kulczynski measure ( Kulczynski 度量 ) 268, 272 


negatively correlated pattem based on (基于 ~ 的 负 相 关 模 


式 ) ，293 -294 
L 


language model (语言 模型 ) 26 
Laplacian correction ( 拉 普 拉 斯 校准 )，355 


lattice of cuboids ( 方 体 的 格 ) ，139,，156, 179, 188 - 189，234 


lazy leamers (惰性 学 习 方法 ) 393, 422-426, 437 


case-based reasoning classifiers (基于 案例 推理 的 分 类 方 


法 ) ，425 -426 


k- nearest- neighbor classifiers (上 -最 近邻 分 类 方法 ) 423 -425 


l-diversity method (l-EN), 622 
leaming (学 习 ) 

active (主动 ~ ), 433 -434 ，437 

backpropagation (后 向 传播 ) 400 

as classification step (作为 分 类 步骤 ) 328 

connectionist (连接 者 ~ ) ，398 

by examples (由 实例 ~ ) 445 

by observation (观测 ~ ) 445 

rate ( ~¥), 397 

semi-supervised 〈 半 监督 ~ ) 572 

supervised (监督 ~), 330 


索 引 


transfer (迁移 学 习 ) 430, 434 -436, 438 
unsupervised (无 监督 ~ ) 330, 445, 490 
learning rates (学 习 率 )，403 -404 
leave-one-out ( 留 一 ) 371 
lift (提升 度 ) 266, 272 


correlation analysis with (用 ~ 进行 相关 分 析 ) ，266 -267 


likelihood ratio statistic 〈 似 然 率 统计 量 ) 363 

linear regression 《线性 回归 ) 90, 105 
multiple (多 元 ~), 106 

linearly (线性 的 )，412 -413 


linearly inseparable data (线性 可 分 数据 ) ，413 -415 


link mining (链接 挖掘 ) 594 
link prediction (链接 预测 ) 594 


455 


load, in back-end tools/utilities 〈( 装 人 人， 后 端 工具 /实用 程 


FF), 134 


loan payment prediction ( 贷款 偿还 预测 ) 608 - 609 


local outlier factor ( 局 部 离 群 点 因子 ) 566 -567 


local proximity- based outliers (基于 局 部 邻近 性 的 离 群 点 )， 


564 -565 
logistic function (逻辑 斯 说 函数 ) ，402 
log-linear models (对 数 线性 模型 )，106 
lossless compression ( 无损 压缩 ) ，100 
lossy compression 〈《 有 损 压 缩 ) 100 
lower approximation (下 近似 ) 427 


M 


machine learning (机 器 学 习 ) ，24 -26 
active (主动 的 ) 25 
data mining similarities (数据 挖掘 相似 性 ) ，26 
semi- supervised ( 半 上 监督 的 )，25 
supervised (监督 的 ) ，24 
unsupervised (无 监督 的 ) ，25 
Mahalanobis distance ( 马 哈 拉 诺 比 斯 距离 )，556 
majority voting ( 多 数 表决 ) 335 
Manhattan distance ( IHR), 72 -73 
MaPle, 519 
margin ( 边缘) 410 


market basket analysis ( 购物 篮 分 析 ) , 244-246, 271 -272 


example (例子 )，244 
illustrated 〈 图 示 ) ，244 
Markov chains (马尔 科 夫 链 ) 591 
materialization ( 物化) 
full (完全 ~), 159, 179, 234 
iceberg cubes 《冰山 立方 体 ~ ) 319 
no (K~), 159 
partial (部 分 ~), 159-160, 192, 234 
semi-offline ( 半 脱 机 ) 226 
max patterns (RKE), 280 
max confidence measure (最 大 置信 度 度 量 ) 268, 272 
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maximal frequent itemsets ( 极 大 频繁 项 集 ) , 247, 308 
example (例子 ) 248 
mining 〈 挖 据 ~ ) 262 -264 
shortcomings for compression (用 于 压缩 的 缺点 ) ，308 -309 
maximum marginal hyperplane ( MMH， 最 大 边缘 超 平面 )，409 
SVM finding (SVM 找 出 ~ ) 412 
maximum normed residual test (最 大 规范 残 差 检 验 ) 555 
mean (均值 ) ,39, 45 
bin, smoothing by ( 箱 ~ ， 用 箱 均 值 光滑 ) 89 
example (HJF), 45 
for missing values (用 于 缺失 值 ) 88 
trimmed 〈 截 尾 ~ ) 46 
weighted arithmetic (加 权 算 术 平 均 ) 45 
measures (EH), 145 
aceuracy-based ( 基于 准确 率 的 ~), 369 
algebraic 《代数 的 ) 145 
all confidence (全 置信 和 度 )，272 
antimonotonic ( 反 单 调 的 ) 194 
attribute selection ( 属性 选择 ) 331 
categories of ( ~ 的 分 类 ) 145 
of central tendency ( 中心 趋 势 ~ )，39，44，45 -47 
correlation (相关 性 ~), 266 
data cube (数据 立方 体 ~ ) 145 
dispersion (散布 ~ ) 48 -51 
distance (距离 ~), 72-74, 461 -462 
distributive (分 布 ~ ) ，145 
holistic 〈 整体 ~ ) 145 
Kulczynski ( Kulczynski ~ ), 272 
max confidence ( 最 大 置信 度 ) 272 
of multidimensional databases ( 多维 数据 库 的 ~), 146 
null-invariant (EREK ~), 272 
pattern evaluation (模式 评估 ~ ) 267 -271 
precision ( 精度) 368 -369 
proximity (邻近 性 ~ ) 67, 68 -72 
recall (召回 率 ) 368 -369 
sensitivity ( RRE), 367 
significance ( 显著 性 ) ，312 
similarity/dissimilarity (相似 性 / 相 异 性 ~ ) 65 -78 
specificity (特效 性 ) 367 
median (473%), 39, 46 
bin, smoothing by (#8 ~ ， 用 箱 中 位 数 光 滑 ) 89 
example (例子 )，46 
formula (公式 ), 46 -47 
for missing values ( 用 于 缺失 值 ) 88 
metadata ( 元 数据 ) 92, 134, 178 
business ( 商务 ~), 135 
importance 〈 重 要 性 ) 135 
operational (操作 ~), 135 
repositories (仓库 ~ ) 134 -135 


metarule-guided mining 〈 元 规则 制导 的 挖掘 ) 
of association rules (关联 规则 的 ~ ) 295 - 296 
example (例子 ) 295 -296 
metrics (EH), 73 
classification evaluation (分 类 评估 ~ ) ，364 -370 
microeconomic view 〈 微 观 经 济 学 观点 ) 601 
midrange ( 中 列 数 ) 47 
MineSet, 603, 605 
minimal interval size (最 小 区 间 长 度 ) 116 
minimal spanning tree algorithm (最 小 生成 树 算法 ) 462 
minimum confidence threshold (fa/)\ (8 EF BUA) , 18, 245 
Minimum Description Length ( MDL， 最 小 描述 长 度 )， 
343 -344 
minimum support threshold ( 最 小 支持 度 阅 值 ) 18, 190 
association rules ( 关联 规则 ) ，245 
count 《计数 )，246 
Minkowski distance ( 闵可夫 斯 基 距 离 )，73 
min-max normalization (最 小 - 最 大 规范 化 ) 114 
missing values ( 缺失 值 ) ，88 -89 
mixed-effect models ( 混合 效应 模型 ) 600 
mixture models (混合 模型 ) 503, 538 
EM algorithm for (用 于 ~ 的 EM 算法 ) 507 - 508 
univariate Gaussian (一 元 高 斯 ) 504 
mode 《 众 数 ) 39, 47 
example (例子 ), 47 
model selection (模型 选择 ) ，364 
with statistical tests of significance (使 用 统计 显著 性 检 
验 )，372 -373 
models (模型 )，18 
modularity (模块 性 ) 
of clustering ( RÆ ~), 530 
use of ( ~ 的 使 用 ) 539 
MOLAP, 见 multidimensional OLAP 
monotonic constraints (单调 约束 ) , 298 
motifs ( 基本 模式 ) , 587 
moving-object data mining ( 移动 对 象 数据 挖掘 )，5395 - 
596, 623 -624 
multiclass classification (多 类 分 类 ) , 430-432, 437 
all-versus-all (AVA, PRA STATA), 430 -431 
error-correcting codes ( £44835), 431 - 432 
one-versus-all (OVA， 一 对 所 有 ) ，430 
multidimensional association rules (多 维 关 联 规 则 )，17， 
283, 288, 320 
hybrid- dimensional (混合 维 ) 288 
interdimensional ( 维 间 ) , 288 
mining ( 控 据 ~ ) 287 -289 
mining with static discretization of quantitative attributes (使 
用 量化 属性 的 静态 离散 化 挖掘 ) ，288 
with no repeated predicates (没有 重复 谓词 的 ~ ) ，288 


见 association rules 
multidimensional data analysis ( 多 维 数 据 分 析 ) 
in cube space (立方 体 空 间 中 的 ~), 227 -234 
in multimedia data mining (多 媒体 数据 中 的 ~ ) ，596 
spatial (空间 ~), 595 
of top-kresults (top-k 结果 的 ~), 226 
multidimensional data mining ( 多维 数 据 挖掘 )，11 ~ 13, 
34 155 -156, 179, 187, 227, 235 
dimensions (4), 33 
example (例子 ) 228 ~229 
retail industry (零售 业 ) 610 
multidimensional data model ( 多 维 数据 模型 )，135 -146，178 
data cube as (数据 立方 体 作为 ~)，136 -139 
dimension table ( 维 表 ) 136 
dimensions 〈( 维 ) 142 -144 
fact constellation ( 事实 星座 ) 141 - 142 
fact table (事实 表 ) ，136 
snowflake schema (雪花 模式 ) ，140 - 141 
star schema ( FEHR), 139 -140 
multidimensional databases ( 多 维 数据 库 ) 
measures of ( ~ 的 度量 ) 146 
querying with starnet model (使 用 星 网 模型 查询 ) ，149 - 150 
mujtidimensional histograms ( 多维 直方 图 ) ，108 
multidimensional OLAP (MOLAP, 44 OLAP), 132, 164, 179 
multifeature cubes (多 特征 立方 体 ) ，227，230，235 
complex query support (复杂 查询 支持 )，231 
examples (例子 )，230 -231 
multilayer feed-forward neural networks (多 层 前 馈 神经 网 
络 ) ，398 -399 
example (例子 ) 405 
illustrated (图 示 ) ，399 
layers ( 层 )，399 
units (单元 ) 399 
multilevel association rules (多 层 关联 规则 )，281，283， 
284, 320 
ancestors (#446), 287 
concept hierarchies (概念 分 层 )，285 
dimensions ( 维 )，281 
group-based support (基于 分 组 的 支持 度 ) 286 
mining 《挖掘 ~ ) ，283 ~287 
reduced support ( 递减 支持 度 ) 285, 286 
redundancy, checking (TR, RÆ), 287 
uniform support (一 致 支持 度 ) ，285 - 286 
multimedia data ( 多 媒体 数据 ) ，14 
multimedia data analysis ( 多 媒体 数据 分 析 ) 319 
multimedia data mining ( 多 媒体 数据 挖 拨 )，596 
multimodal (多 峰 的 ) 47 
multiple linear regression ( 多 次 线性 回归 ) ，90，106 
multiple sequence alignment ( 多 序列 比 对 ) ，590 


索 al + 457 


multiple- phase clustering (多 阶段 聚 类 ) 458 -459 
multitier data warehouses ( 多 层 数据 仓库 ) 134 
multivariate outlier detection (多 元 离 群 点 检测 ) , 556 
with Mahalanobis distance (使 用 马 哈 拉 诺 比 斯 距离 )，556 
with multiple clusters (使 用 多 个 答 )，557 
with multiple parametric distributions (使 用 多 个 参数 分 
布 ) 557 
with X’ -statistic (使 用 卡 方 统计 量 )，556 
multiway array aggregation (多 路 数组 聚集 ) 195, 235 
for full cube computation 〈 用 于 完全 立方 体 计算 ) 195 - 199 
minimum memory requirements 《最 小 内 存 需 求 ) 198 
must-link constraints (AUK RAK), 533, 536 
mutation operator ( 突变 操作 ) , 426 
mutual information (互信 息 ) 315 -316 
mutually exclusive rules 〈 互 斥 规 则 ) 358 


N 


naive Bayesian classification 〈 朴 素 贝 叶 斯 分 类 ) ，351 
class label prediction with (使 用 ~ 预测 类 标号 ) 353 
~355 
nearest-neighbor clustering algorithm (最 近邻 聚 类 算法 ) 461 
near- match patterns/rules 《最 近 匹 配 模式 /规则 ) 281 
negative correlation ( 负 相 关 ) 55, 56 
negative patterns (#830), 280, 283, 320 
example (例子 ) 291 —292 
mining ( 挖 据 ~ ) 291 -294 
negative transfer ( 负 迁 移 ) 436 
negative tuples ( 负 元 组 ) 364 
negatively skewed data ( 负 倾 斜 数据 ) 47 
neighborhoods ( 邻 域 ) 
density ( 密度) 471 
distance-based outlier detection (基于 距离 的 离 群 点 检 
测 )，560 
k-distance (上 -距离 )，565 
nested loop algorithm ( 入 套 循环 算法 ) ，561，562 
networked data ( 网络 数据 ) 14 
networks (网 络 ) 592 
heterogeneous (ii ~), 592, 593 
homogeneous 《 同 质 ~ ) 592, 593 
information (信息 ~ ) ，592 - 594 
mining in science applications (科学 应 用 中 的 ~ 挖掘)， 
612 -613 
social 《社会 ~ ) 592 
statistical modeling of ( ~ 的 统计 建 模 ) 592 -594 
neural networks ( 神经 网 络 ) 19, 398 
backpropagation 《后 向 传播 ~ ) 398 -408 
as black boxes ( ~ 作为 黑 盒 ) 406 
for classification (用 于 分 类 的 ~ ) 19, 398 
disadvantages ( ~ 的 缺点 ) ，406 
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fully connected (全 连接 的 ~ ) 399, 406 -407 
learning (J), 398 
multilayer feed-forward (多 层 前 馈 ~ ) 398 -399 
pruning ( 剪 枝 ) 406 -407 
tule extraction algorithms 〈 规 则 提取 算法 ) 406, 407 
sensitivity analysis ( 灵敏度 分 析 ) 408 
three-layer (三 层 ~ ) ，399 
topology definition (拓扑 定义 )，400 
two-layer (两 层 ~ ) 399 
neurodes (神经 结 点 ) ，399 
Ng- Jordan- Weiss algorithm ( Ng- Jordan- Weiss 算法 )， 
521, 522 
no materialization (不 物化 ) ，159 
noise filtering 《噪声 过 滤 ) 318 
noisy data ( 噪声 数据 ) ，89 -91 
nominal attributes ( 标 称 属性 ) 41 
concept hierarchies for ( ~ 的 概念 的 分 层 ) 284 
correlation analysis ( 相关 性 分 析 ) 95-96 
dissimilarity between ( ~ 之 间 的 相 异 性 }，69 
example (例子 ) ,41 
proximity measures ( 邻近 性 度量 )，68 -70 
similarity computation (相似 性 计算 ) 70 
values of ( ~ 的 值 ) 79, 288 
见 attributes 
nonlinear SVMs (JFE SVM) 413 -415 
nonparametric statistical methods ( 非 参 数 统计 学 方法 ) , 
553 -558 
nonvolatile data warehouses ( 非 易 失 的 数据 仓库 ) 127 
normalization (规范 化 ) 112, 120 
data transformation by 〈 通 过 ~ 数据 变换 ) ，113 - 115 
by decimal scaling (通过 小 数 定 标 ~ ) 115 
min-max (最 小 -最 大 ~), 114 
z-score (z 分 数 ~ )，114 -115 
null rules 〈 空 规则 ) ，92 
null- invariant measures 〈 零 不 变 度量 ) 270-271, 272 
null-transactions (#34), 270, 272 
number of ( ~r), 270 
problem ( ~ 问题 ) 292 -293 
numeric attributes (数值 属性 ) 43 ~44, 79 
covariance analysis ( 协 方差 分 析 ) , 98 
interval-scaled (区 间 标 度 的 ) 43, 79 
ratio-scaled ( 比率 标 度 的 ) 43-44, 79 
numeric data, dissimilarity on (数值 数据 ，~ LAMAR 
tE), 72-74 
numeric prediction (数值 预测 ) 328, 385 
classification (分 类 ) 328 
support vector machines (SVM) for (用 于 ~ 的 支持 向 量 
机 ) ，408 
numerosity reduction (数值 归 约 }，86，100，120 


techniques 《 ~ 技术 )，100 
O 


object matching (对 象 匹 配 ) 94 
objective interestingness measures 〈 客 观 兴 趣 度 度量 ) 21-2 
one-class model 〈 一 类 模型 ) , 571 -572 
one-pass cube computation (一 这 立方体 计算 ) 198 
one-versus-all (OVA， 一 对 所 有 ) 430 
online analytical mining (OLAM， 联 机 分 析 挖 握 ) , 155, 227 
online analytical processing ( OLAP， 联 机 分 析 处 理 )，4，33， 
128, 179 
access patterns (访问 模式 ) 129 
data contents (数据 内 容 ) 128 
database design (数据 库 设 计 )，129 
dice operation ( 切 块 操作 ) ，148 
drill- across operation 〈《 钻 过 操作 ) 148 
drill-down operation 〈《 下 钻 操 作 ) 11, 135 -136, 146 
drill-through operation 〈 钻 透 操 作 ) ，148 
example operations (操作 例子 ) ，147 
functionalities of ( ~ 的 功能 ) 154 
hybrid OLAP (混合 OLAP) 164-165, 179 
indexing (#5]), 125, 160 - 163 
in information networks (信息 网 络 中 的 ~ ) 594 
in knowledge discovery process (知识 发 现 过 程 中 的 ~), 125 
market orientation 《面向 市 场 ) 128 
multidimensional (MOLAP， 多 维 ~), 132, 164, 179 
OLTP versus (OLTP 与 ~ ), 128 -129，130 
operation integration (操作 集成 ) 125 
operations (操作 )，146 -148 
pivot (rotate) operation (转轴 /旋转 操作 ) ，148 
queries (查询 )，129, 130, 163 -164 
query processing (查询 处 理 ) 125, 163 - 164 
relational OLAP (关系 OLAP), 132, 164, 165, 179 
roll-up operation 〈 上 卷 操作 ) 11, 135-136, 146 
sample data effectiveness (样本 数据 的 有 效 性 ) 219 
server architectures (服务 器 体系 结构 ) ，164 - 165 
servers (服务 器 ) 132 
slice operation (切片 操作 )，148 
spatial (空间 ~ ) ，595 
statistical databases versus (统计 数据 库 与 ~ ) ，148 - 149 
user- control versus automation ( 用户 控制 的 与 自动 
的 ) 167 
view (视图 ) 129 
online transaction processing (OLTP， 联 机 事务 处 理 ) ，128 
access patterns (访问 模式 ) 129 
customer orientation (面向 顾客 ) 128 
data contents (数据 内 容 ) 128 
database design 《数据库 设计 ) 129 
OLAP versus (OLAP 与 ~ ) 128 -129, 130 


view (视图) 129 
operational metadata 《操作 元 数据 ) 135 
OPTICS, 473 -476 
cluster ordering (SHEFF), 474-475, 477 
core-distance (核心 距离 ) 475 
density estimation ( 密度 估计 ) 477 
reachability-distance (可 达 距 离 ),，475 
structure (结构 ),476 
terminology (AGB), 476 
见 cluster analysis, density~based methods 
ordered attributes 《有 序 属 性 ) 103 
ordering ( 排序) 
class-based (基于 类 的 )，358 
dimensions ( 维 ~), 210 
tule 《规则 ~), 357 
ordinal attributes (序数 属性 ) 42, 79 
dissimilarity between ( ~ 之 闻 的 相 异 度 ) ,75 
example (例子 ) 42 
proximity measures ( 邻近 性 度量 ) 74-75 
outlier analysis 〈 离 群 点 分 析 ) 20 -21 
clustering- based techniques (基于 聚 类 的 技术 ), 66 
example (例子 ) ，21 
in noisy data (噪声 数据 中 的 ~ ) 90 
spatial (空间 ~ ) 595 
outlier detection 〈 离 群 点 检测 ) 543 -584 
angle-based (ABOD， 基 于 角度 的 ~ ) 580 
application- specific (针对 应 用 的 ~ ) 548 -549 
categories of ( ~ 的 分 类 ) ，581 
CELL method (CELL 方法) ，562 -563 
challenges ( 挑战 ) 548 -549 
clustering analysis and ( RXT ~), 543 
clustering for (用 于 ~ KRÆ), 445 
clustering- based methods ( 基于 聚 类 的 方法 ) ，552 ~553, 
560 -567 
collective (集体 ~ ) 548, 575 -576 
contextual (情境 ~ ) 546 - 547, 573 -575 
distance-based (基于 距离 的 ~), 561 -562 
extending (扩充 的 ~ ) 577 -578 
global (全 局 ~), 545 
handling noise in ( ~ 中 的 噪声 处 理 ) 549 
in high- dimensional data (高 维 数据 中 的 ~ )，576 - 
580, 582 
with histograms ( 使 用 直方 图 ~), 558 -560 
intrusion detection (人 侵 检 测 ) 569 -570 
methods (方法 ) 549 -553 
mixture of parametric distributions 〈 混 合 参数 分 布 ) 556 -558 
multivariate (多 元 ~ ) 556 
novelty detection relationship 〈 与 新 颖 性 检测 的 联系 ) , 545 
proximity- based methods (基于 邻近 性 的 方法 ) 552, 


560 -567, 581 
semi-supervised methods 〔 半 监督 方法 ) 551 
statistical methods 〈 统 计 学 方法 ) 552, 553 -560, 581 
supervised methods ( 监督 方法 ) 549 ~550 
understandability (可 理解 性 ) ，549 
univariate (一 元 ~ ) 554 
unsupervised methods 《无 监督 方法 ) 550 
outlier subgraphs (〈 离 群 点 子 图 ) 576 
outliers ( 离 群 点 ) 
angle-based (基于 角度 的 ~), 20, 543, 544, 580 
collective ( 集体 ~ ) 547-548, 581 
contextual (情境 ~ ) 545 -547, 573, 581 
density-based (基于 密度 的 ~ ) 564 
distance-based ( 基于 距离 的 ~), 561 
example (HJF), 544 
global (全 局 ~ ) 545, 581 
high-dimensional, modeling (高 维 ~ ， 建 模 ) ，$79 —580 
identifying (识别 ~ ) 49 
interpretation of ( ~ 的 解释 ) 577 
local proximity-based (基于 局 部 邻近 性 的 ~), 564 -565 
modeling ( ~ 建 模 ) 548 
in small clusters (小 艇 中 的 ~ ) ，571 
types of ( ~ 的 类 型 )，545 -548, 581 
visualization with boxplot (使 用 盒 图 可 视 化 } ，555 
oversampling ( 过 抽样 ) 384, 386 
example (例子 ) ，384 -385 


Pp 


pairwise alignment ( 逐 对 比 对 ) ，590 
pairwise comparison ( 逐 对 比较 ) 372 
PAM, JL Partitioning Around Medoids algorithm ， 
parallel and distributed data- intensive mining algorithms (并 
行 和 分 布 的 数据 密集 控 气 算法 ) 31 
parallel coordinates (平行 坐标 系 ) 59, 62 
parametric data reduction 〈 参 数 数据 归 约 ) 105 -106 
parametric statistical methods (参数 统计 学 方法 ) 553 -558 
Pareto distribution (Pareto 分 布 ) ，592 
partial distance method ( 部 分 距离 方法 ) 425 
partial materialization ( 部 分 物化 ) 159-160, 179, 234 
strategies (策略 ) 192 
partition matrix 〈 分 块 矩 阵 ) 538 
partitioning (划分 ) 
algorithms (算法 ) ，451 -457 
bootstrapping ( 自助 ) 371, 386 
criteria (标准 ) 447 
cross-validation (交叉 验证 ) ，370 -371, 386 
Gini index and (基尼 指数 与 ~ ) 342 
holdout method 〈 保持 方法 ) 370, 386 
random sampling 〈 随机 抽样 ) 370, 386 
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recursive (364), 335 
tuples (7028), 334 ， 

Partitioning Around Medoids (PAM) algorithm (围绕 中 心 点 
的 划分 算法 ) 455 -457 
partitioning methods (划分 方法 ) , 448, 451 ~457, 491 

centroid- based ( 基于 形 心 的 ~ ) ，451 -454 
global optimality (全 局 最 优 ) ，449 
iterative relocation techniques 【迭代 重 定位 技术 ) 448 
k-means (上 -均值 ),，451 -454 
k-medoids 《中 心 点 ) , 454 -457 
k-modes (上 - 众 数 )，454 
object -based (基于 对 象 的 ~ ) 454 -457 
J cluster analysis 
path- based similarity (基于 路 径 的 相似 性 ) , 594 
pattern analysis, in recommender systems (模式 分 析 ， 推 荐 
系统 中 的 ~ ) ，282 
pattern clustering (ARZ), 308 -310 
pattern constraints (模式 约束 ) 297 -300 
pattern discovery (模式 发 现 ) 601 
pattern evaluation 《模式 评估 】 ,8 
pattern evaluation measures 〈 模 式 评 估 度 量 ) 267 -271 
all_confidence, 268 
comparison (比较) 269 -270 
cosine (423%) , 268 
Kulczynski, 268 


max confidence 〈 最 大 置信 和 度 ) 268 
null-invariant ( 零 不 变 ) 270 -271 
见 measures 

pattern space pruning (模式 空间 前 枝 ) 295 
pattern- based classification 《基于 模式 的 分 类 ) , 282, 318 
Pattern- based clustering (基于 模式 的 聚 类 ) , 282, 516 
Pattern- Fusion 《模式 融合 ) 302 -307 

characteristics 〈 特征) 304 

core pattem 〈 核 模式 ) 304 -305 

initial pool (初始 池 ) ，306 

iterative ( 迭代 的 )，306 

merging subpatterns (合并 子 模式 )，306 

shortcuts identification (捷径 识别 ) ，304 

JL colossal patterns 

pattern- guided mining 〈 模 式 制 导 的 挖 握 ) 30 
pattems 〈 模式 ) 

actionable ( 可 行动 的 ) 22 

co-location (协定 位 )，319 

colossal (巨型 ~ ) 301 -307，320 

combined significance (联合 显著 性 ) 312 

constraint- based generation (基于 约束 的 产生 ) ，296 -301 

context modeling of ( ~ 的 语 境 建 模 )，314 -315 

core ($X ~), 304 -305 

distance ( ~ BER), 309 


evaluation methods ( ~ 评估 方法 ) 264-271 
expected (HA ~), 22 
frequent (频繁 ~ ) 17 
hidden meaning of ( ~ 的 隐 含 意义 ) 314 
interesting (有 趣 ~ ) 21-23, 33 
metric space 《度量 空间 ) 306 -307 
negative (ffi ~), 280, 291 -294，320 
negatively correlated ( 负 相 关 ~), 292, 293 
rare (稀有 ~ ) 280, 291-294, 320 
redundancy between ( ~ 间 的 宛 余 ) , 312 
relative significance (相对 显著 性 ) 312 
representative (代表 ~ ) 309 
search space (搜索 空间 ) ，303 
strongly negatively correlated ( 强 负 相关 的 ~), 292 
structural (结构 ~ ) 282 
type specification 〈 类 型 说 明 ) ，15 -23 
unexpected (意外 ~ ) 22 
见 frequent patterns 
pattern-trees (EIRA), 264 
Pearson’ s correlation coefficient ( Pearson 4# 关系 数 ) 222 
percentiles 〈 百 分 位 数 ) 48 
perception- based classification (PBC， 基 于 感知 的 分 类 ) 348 
illustrated (las) ，349 
as interactive visual approach 〈 作 为 迭代 的 可 视 化 方法 ) 607 
pixel- oriented approach ( 基于 像素 的 方法 ) 348 -349 
phylogenetic trees ( 系统 发 生 树 ) ，590 
pivot (rotate) operation (转轴 /旋转 操作 ) ，148 
Pixel- oriented visualization (面向 像素 的 可 视 化 ) ，57 
planning and analysis tools (规划 和 和 分析 工具 ) ，153 
point queries (点 查询 ) 216, 217, 220 
pool-based approach (基于 池 的 方法 ) 433 
positive correlation ( EHX), 55, 56 
positive tuples ( 正 元 组 ) 364 
positively skewed data (下 倾斜 数据 ) 47 
possibility theory (概率 论 ) 428 
posterior probability (后 验 概 率 ) ，351 
postpruning (后 剪 枝 ) , 344-345, 346 
power law distribution ( R4), 592 
precision measure (精度 度量 ) 368 -369 
predicate sets ( 谓词 集 ) 
frequent (频繁 ~ )，288 -289 
k, 289 
predicates ( 谓词) 
repeated (重复 ~), 288 
variables ( ~ 变量 ) 295 
prediction 《预测 ) 19 
classification (4728), 328 
link (链接 ~ ) 593 -594 
loan payment ( 贷款 偿还 ~ ) 608 -609 


with naive Bayesian classification (使 用 朴素 贝 叶 斯 分 类 ) , 


353 -355 
numeric (数值 ~ ) 328, 385 
prediction cubes ( 预测 立方 体 ) 227 -230, 235 
example (例子 ) ，228 - 229 
Probability- Based Ensemble 〈 基 于 概率 的 组 合 方 法 )， 
229 -230 
predictive analysis ( 预测 分 析 ) ，18 -19 
predictive mining tasks ( 预测 挖掘 任务 ) 15 
predictive statistics ( 预测 统计 量 ) ，24 
predictors ( 预测 器 ) ，328 
prepruning 〈 先 剪 枝 ) 344, 346 
prime relations ( 主 关 系 ) 
contrasting classes 〔( 对 比 类 ~ ) 175, 177 
deriving〈 导 出 的 ~ )，174 
target classes ( 目标 类 ~), 175, 177 
principle components analysis ( PCA， 主 成 分 分 析 ) 100, 
102 - 103 
application of ( ~ 的 应 用 ) 103 
correlation- based clustering with (使 用 ~ 的 基于 相关 性 的 
RE), ，511 
illustrated (图 示 ) ，103 
in lower- dimensional space extraction (在 较 低 维 空间 提 
取 ) ，578 
procedure ( ~ 过 程 ) 102 -103 
prior probability ( 先 验 概率 ) 351 
privacy- preserving data mining (保护 隐私 的 数据 挖掘 )， 
33, 621, 626 
distributed (分 布 式 ~), 622 
k-anonymity method (k- EZ JIE), 621 -622 
l-diversity method (1- 多 样 性 方法 ) 622 
as mining trend ( ~ 作为 控 据 趋势 ) 624 -625 
randomization methods (随机 化 方法 ) 621 
results effectiveness, downgrading (结果 的 有 效 性 ， 降 
低 ) ，622 
probabilistic clusters (#327), 502 -503 
probabilistic hierarchical clustering (概率 层次 聚 类 ),，467 -470 
agglomerative clustering framework (凝聚 聚 类 框架 )， 
467, 469 
algorithm 〈 算 法 ) 470 
drawbacks of using (使 用 ~ 的 缺点 ) ，469 -470 
generative model (生成 模型 ) 467 - 469 
interpretability ( 可 解释 性 ) 469 
understanding ( 理解 ) 469 
JL hierarchical methods 
probabilistic model- based clustering (基于 概率 模型 的 聚 
类 ) ，497 -508 538 
expectation- maximization algorithm ( 期望 -最 大 化 算法 ) ， 
505 — 508 
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fuzzy clusters and ( MRK ~), 499 -501 
product reviews example (产品 评论 例子 ) 498 
user search intent example (用 户 搜索 意图 例子 ) 498 
见 cluster analysis 
probability (概率 ) 
estimation techniques (估计 技术 ) 355 
posterior (后 验 ~), 351 
prior (Æ ~), 351 
probability and statistical theory 〈 概 率 统计 理论 ) 601 
Probability- Based Ensemble (PBE ， 基 于 概率 的 组 合 方法 ) ， 
229 - 230 
PROCLUS, 511 
profiles ($), 614 ， 
proximity measures ( 邻近 性 度量 ) 67 
for binary attributes 《二 元 属性 的 ~ ) ，70 -72 
for nominal attributes ( 标 称 属性 的 ~ ) 68 -70 
for ordinal attributes (序数 属性 的 ~ ) 74 -75 
proximity-based methods (基于 邻近 性 的 方法 ) 552, 560 
- 567, 581 
density-based (基于 密度 的 ) 564 - 567 
distance-based 基于 距离 的 ) 561 -562 
effectiveness ( 有效 性 ) 552 
example (例子 ) 552 
grid-based (基于 网 格 的 ) 562 -564 
types of ( ~ 的 类 型 ) 552, 560 
J outlier detection 
pruning (前 枝 ) 
cost complexity algorithm (代价 复杂 度 算法 )，345 
data space (数据 空间 ~ ) ，300 -301 
decision trees (决策 树 ~ ) 331, 344 -347 
in k- nearest neighbor classification ( k- 最 近邻 分 类 中 
的 ~ )，425 
network (网 络 ~ ) 406 -407 
pattern space (模式 空间 ~ ) 295, 297 - 300 
pessimistic (JEW ~), 345 
postpruning 《后 剪 枝 ) 344-345, 346 
prepruning ( 先 剪 枝 ) 344, 346 
tule (规则 ~), 363 
search space (搜索 空间 ~ ) 263, 301 
sets ( ~ #8), 345 
shared dimensions (共享 维 ) 205 
sub-itemset ( 子 项 集 ~), 263 
pyramid algorithm 《金字 塔 算法 ) 101 


Q 


quality control (质量 控制 ) 600 

quantile plots 《分 位 数 图 ) ，51 -52 

quantile- quantile plots (分 位 数 -分 位 数 图 )，52 
example (例子 )，53 -54 
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illustrated ( RIZR), 53 
见 graphic displays 
quantitative association rules ( 量化 关联 规则 )，281，283， 
288, 320 
clustering- based mining (基于 聚 类 的 挖掘 ) 290 - 291 
data cube-based mining (基于 数据 立方 体 的 挖掘 ) ，289 -290 
exceptional behavior disclosure (异常 行为 分 析 ) 291 
mining ( 挖 所 ~ )，289 
quartiles ( 四 分 位 数 ) ，48 
first (第 一 个 ~), 49 
third (第 三 个 ~), 49 
queries (查询 )，10 
intercuboid expansion ( 方 体 间 扩 展 )，223 -225 
intracuboid expansion ( 方 体 内 扩展 ) 221 -223 
language ( ~ 语言 ) 10 
OLAP (OLAP ~), 129, 130 
point (点 ~ ) 216, 217, 220 
processing ( ~ 处理) 163-164, 218 -227 
range (区 间 ~ ) 220 
relational operations (关系 操作 ) 10 
subcube ( 子 立方 体 ~), 216, 217 -218 
top-k, 225 -227 
query languages (查询 语言 ) ，31 
query models (查询 模型 ) ，149 - 150 
query- driven approach ( 查询 驱动 的 方法 ) 128 
querying function (查询 函数 )，433 


R 


rag bag criterion 〈 碎 布袋 准则 ) , 488 
RainForest, 347, 385 
random forests ( 随机 森林 ) , 382 -383 
random sampling (随机 抽样 ) 370, 386 
random subsampling ( 随机 二 次 抽样 ) 370 
random walk ( 随机 游 走 ) 526 
similarity based on (基于 ~ 的 相似 性 ) 527 
randomization methods ( 随机 化 方法 ) 621 
range 〈 极 差 ) 48 
interquartile ( 中间 四 分 位 数 ~ ) 49 
range queries 《区间 查询 )，220 
ranking《 排序 ， 秩 评定 ) 
cubes (排序 立方 体 )，225 -227 235 
dimensions (排序 维 ) 225 
function (HFF RZ), 225 
heterogeneous networks ( 异 质 网 络 的 秩 评定 ) 593 
rare patterns (稀有 模式 ) ，280 ，283 320 
example (例子 )，291 -292 
mining (#48 ~), 291 -294 
ratio- scaled attributes ( 比率 标 度 属性 ) ，43 -44, 79 
reachability density ( 可 达 性 密度 ) 566 


reachability distance (可 达 有 距离 )，565 
recall measure (召回 率 度量 )，368 -369 
recognition rate (识别 率 ) 366 -367 
recommender systems (推荐 系统 )，282,，615 
advantages (优点 ) 616 
biclustering for (用 于 ~ 的 双 聚 类 )，514 -515 
challenges (挑战 ) 617 
collaborative (协同 ~), 610, 615, 616, 617, 618 
content-based approach (基于 内 容 的 方法 ) ,615, 616 
data mining and 〈 数 据 挖掘 与 ~ ) 615 -618 
error types 《错误 类 型 ) 617 -618 
frequent pattern mining for (用 于 ~ 的 频繁 模式 挖 
tH), 319 
hybrid approaches 〈 混 合 方法 ) 618 
intelligent query answering 〈 智 能 查询 回答 ) 618 
memory-based methods (基于 内 存 的 方法 ) 617 
use scenarios (使 用 场景 )，616 
recursive partitioning (递归 划分 ) 335 
reduced support (递减 支持 度 )，285，286 
redundancy (A) 
in data integration (数据 集成 中 的 ~ ) ，94 
detection by correlations analysis (通过 相关 分 析 检 测 ~ ) ， 
94 -98 
redundancy- aware top-kpatterns (感知 元 余 的 top- 上 模式 )， 
281, 311, 320 
extracting (提取 ~), 310 -312 
finding (W ~), 312 
strategy comparison ( 策略 比较 ) ，311 -312 
trade-offs (HF), 312 
refresh, in back-end tools/utilities (刷新 ， 后 端 工具 /实用 
程序 中 ) 134 
regression ( 回归 )，19,，90 
coefficients ( ~ 系数 )，105 -106 
example (例子 ) 19 
linear (线性 ~), 90, 105 -106 
in statistical data mining 《统计 数据 挖掘 中 的 ~ ) 599 
regression analysis ( 回归 分 析 ) 19, 328 
in time-series data ( 时间 序列 数据 中 的 ~), 587 -588 
relational databases (关系 数据 库 ) ，9 
components of ( ~ 的 成 分 ) 9 
mining (挖掘 ~ ) 10 
relational schema for ( ~ 的 关系 模式 ) 10 
relational OLAP (ROLAP， 关 系 OLAP), 132, 164, 165, 179 
relative significance (相对 显著 性 ) 312 
relevance analysis (相关 分 析 ) 19 
repetition (Hi), 346 
replication (复制 ) 347 
illustrated (图 示 ) ，346 
representative patterns (代表 模式 ) ，309 


retail industry (零售 业 ) ，609 -611 
RIPPER, 359, 363 
robustness, classification (4 #EYE, 426), 369 
ROC curves (ROC H), 374, 386 
classification models (分 类 模型 ) 377 
classifier comparison with 《使 用 ~ 比较 分 类 器 ) ，373 -377 
illustrated (图 示 ) ，376 377 
plotting (绘制 ~ ) 375 
roll-up operation (上 卷 操作 ) 11, 146 
rough set approach (粗糙 集 方法 ) 428 - 429 437 
row enumeration 〈 行 枚 举 ) 302 
rule ordering ( 规则 序 ) ，357 
rule pruning (规则 剪 枝 ) 363 
rule quality measures (规则 质量 度量 ) 361 - 363 
rule-based classification 〈 基 于 规则 的 分 类 ) , 355-363, 386 
IF-THEN rules (IF-THEN 规则 ) , 355 -357 
rule extraction (规则 提取 )，357 -359 
tule induction ( 规则 归纳 ) ，359 -363 
rule pruning (规则 前 枝 ) 363 
rule quality measures ( 规则 质量 度量 ) 361 -363 
rules for constraints (约束 规则 ) ，294 


S 


sales campaign analysis (促销 活动 分 析 ) , 610 
samples 〔 样 本 ) 218 
cluster ($), 108 - 109 
data (数据 ~), 219 
simple random (简单 随机 ~), 108 
stratified (分 层 ~), 109-110 
sampling (抽样 ) 
in Apriori efficiency (在 Apriori 中 的 有 效 性 ) 256 
as data reduction technique ( ~ 作为 数据 归 约 技术 ) 108 -110 
methods ( ~ 方法 ) 108 -110 
oversampling ( 过 抽样 )，384 - 385 
random 《随机 ~ ) 386 
with replacement (有 放 回 ~ ) ，380 -381 
uncertainty (不 确定 ~ ) 433 
undersampling 〈 欠 抽样 ) 384 -385 
sampling cubes (抽样 立方 体 )，218 -220, 235 
confidence interval ( 置信 区 间 ) 219 -220 
framework (框架 ) 219 -220 
query expansion with (用 ~ 的 查询 扩展 ) 221 
SAS Enterprise Miner (SAS 企业 挖掘 程序 ) 603, 604 
scalability ( 可 伸缩 性 ) 
classification (分 类 )，369 
cluster analysis 〈 聚 类 分 析 ) ，446 
cluster methods ( 聚 类 方法 ) 445 
data mining algorithms (数据 控 气 算法) 31 
decision tree induction and (决策 树 归纳 与 ~ ) 347 -348 
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dimensionality and (维度 与 ~ ) 577 
k-means (- 均 值 ) 454 
scalable computation (可 伸缩 和 的 计算 )，319 
SCAN, X, Structural Clustering Algorithm for Networks 
core vertex (核心 顶点 ) 531 
illustrated (图 示 ) ，532 
scatter plots ( 散 点 图 )，54 
2-D data set visualization with (2-D 数据 集 可 视 化 ) 59 
3-D data set visualization with (3-D 数据 集 可 视 化 ) 60 
correlations between attributes ( 属性 间 的 相关 性 ) 54-56 
illustrated (as), 55 
matrix ( ~ 和 矩阵 ) 56, 59 
schemas (模式 ) 
integration ( ~ ER), 94 
snowflake (雪花 ~ ) 140 -141 
star ( 星 形 ~), 139-140 
science applications 《科学 应 用 )，611 -613 
search engines (搜索 引 敬 )，28 
search space pruning (搜索 空间 剪 枝 ) 263, 301 
second guess heuristic (二 次 猜测 试探 ) 369 
selection dimensions (选择 维 )，225 
self-training (自我 训练 )，432 
semantic annotations (语义 注释 ) 
applications (应 用 ) 317, 313, 320-321 
with context modeling (使 用 语 境 建 模 )，316 
from DBLP data set (DBLP 数据 集 的 ~), 316 -317 
effectiveness ( 有效 性 )，317 
example (例子 ) ，314 -315 
of frequent patterns (频繁 模式 的 ~), ，313 -317 
mutual information (互信 息 ) 315 -316 
task definition (任务 定义 )，315 
semantic Web (语义 Web), 597 
semi- offline materialization 《 半 脱 机 物化 ) , 226 
semi- supervised classification ( 半 监 督 分 类 )，432 -433 437 
alternative approaches (其 他 方法 ) 433 
cotraining 《协同 训练 ) , 432 - 433 
self-training (自我 训练 )，432 
semi-supervised learning ( 半 监 督学 习 ), 25 
outlier detection by (通过 ~ 的 离 群 点 检测 ) ，572 
semi- supervised outlier detection ( 半 监 督 的 离 群 点 检测 ) ，551 
sensitivity analysis ( 灵敏度 分 析 ) 408 
sensitivity measure ( 灵敏 度 度量 ) 367 
sentiment classification (观点 分 类 ) 434 
sequence data analysis (序列 数据 分 析 ) , 319 
sequences (序列 )，586 
alignment ( ~ 上 比 对 ) ，590 
biological (生物 学 ~ ) ，586，590 -591 
classification of ( ~ 的 分 类 ) , 589 - 590 
similarity searches ( 相似 性 搜索 ) ，587 
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symbolic (符号 ~), 586, 588 -590 
time-series 〈( 时 间 序 列 ) 586, 587 -588 
sequential covering algorithm (顺序 禾 盖 算法 )}，359 
general-to-specific search (一 般 到 特殊 搜索 ) 360 
greedy search 《贪心 搜索 ) 361 
illustrated 〈 图 示 ) ，359 
rule induction with (使 用 ~ 的 规则 归纳 ) ，359 -361 
sequential pattern mining (序列 模式 控 据 ) , 589 
constraint-based (基于 约束 的 ~ ) 589 
in symbolic sequences (符号 序列 中 的 ~ ) 588 -589 
shapelets method ( shapelets 方法 ) 590 
shared dimensions ( 共享 维 ) 204 
pruning (394%), 205 
shared-soris (共享 排序 ) 193 
shared- partitions (共享 划分 ) 193 
shell cubes ( 壳 立 方 体 )，160 
shell fragments (#2 EX), 192, 235 
approach 〈 方 法 ) 211 -212 
computation algorithm (计算 算法 ) 212, 213 
computation example ( 计算 例子 ) 214 -215 
precomputing 〈 预 计算) 210 
shrinking diameter (收缩 直径 ) ，592 
sigmoid function (S 形 函 数 )，402 
signature- based detection 《基于 特征 的 检测 ) 614 
significance levels (显著 水 平 ) 373 
significance measure (显著 性 度量 ) 312 
significance tests (显著 性 检验 ) ，372 -373 ，386 
silhouette coefficient (轮廓 系数 )，489 -490 
similarity ( 相似 性 ) 
asymmetric binary ( 非 对 称 的 二 元 ~), 71 
cosine (余弦 ~ )，77 -78 
measuring (度量 )，65 -78，79 
nominal attributes ( 标 称 属性 的 ~), 70 
similarity measures (相似 性 度量 ) ，447 -448 525 -528 
constraints on ( ~ 上 的 约束 ) 533 
geodesic distance ( 测 地 距 ) ，525 -526 
SimRank, 526 -528 
similarity searches (相似 性 搜索 ) 587 
in information networks (信息 网 络 中 的 ~), 594 
in multimedia data mining (多 媒体 数据 挖掘 中 的 ~), 596 
simple random sample with replacement (SRSWR, 有 放 回 简 
单 随机 抽样 ) 108 
simple random sample without replacement (SRSWOR， 无 放 
回 简单 随机 抽样 ) 108 
SimRank , 526 - 528, 539 
computation 〈 计算 ) 527 -528 
random walk (随机 游 走 ) 526 -528 
structural context (结构 情境 ) ，528 
simultaneous aggregation (同时 聚集 )，195 


single- dimensional association rules ( 单 维 关联 规则 ) , 17, 287 
single- linkage algorithm ( 单 链接 算法 ) 460, 461 
singular value decomposition (SVD， 奇 异 值 分 解 ) 587 
skewed data (倾斜 数据 ) 
balanced (平衡 的 ) ，271 
negatively (ff ~), 47 
positively ( 正 ~), 47 
wavelet transforms on ( ~ 上 的 小 波 变换 ) 102 
slice operation (切片 操作 ) ，148 
small- world phenomenon (小 世界 现象 ) 592 
smoothing (光滑 )，112 
by bin boundaries ( 用 箱 边 界 ~), 89 
by bin means (用 箱 均 值 ~ ) ，89 
by bin medians (用 箱 中 位 数 ~ ) 89 
for data discretization, ( 用 于 数据 离散 化 ) 90 
snowflake schema (雪花 模式 ) 140 
example (例子 )，141 
illustrated ( 图 示 ) 141 
star schema versus ( 星 形 模式 与 ~ ) 140 
social networks (社会 网 络 ) ，524 - 525 526 -528 
densification power law ( REFFI), 592 
evolution of ( ~ 的 演变 ) 594 
mining ( 挖 据 ~), 623 
small-world phenomenon 〔 小 世界 现象 ) 592 
见 networks 
social science/social studies data mining (社会 科学 /社会 研 
究 数 据 挖掘 ) 613 
soft clustering ( 软 聚 类 ) ，501 
soft constraints ( 软 约束 ) ，534 ，539 
example (例子 )，534 
handling (处 理 ~ )，536 -537 
space-filling curve (空间 填充 曲线 ) ，58 
sparse data (稀疏 数据 ) 102 
sparse data cubes ( 稀 朴 数据 立方 体 ) 190 
sparsest cuts 〈 最 稀 朴 的 割 ) 539 
sparsity coefficient ( EPAX), 579 
spatial data (空间 数据 ) ，14 
spatial data mining ( 空间 数据 挖 据 ) 595 
spatiotemporal data analysis (时 间 空 间 数 据 分 析 ) ，319 
spatiotemporal data mining (时 间 空 间 数 据 挖掘 )，595， 
623 -624 
specialized SQL servers ( 特殊 SQL 服务 器 ) 165 
specificity measure ( 特效 性 度量 ) 367 
spectral clustering 〈 谱 聚 类 ) 520 - 522, 539 
effectiveness (有效 性 ) 522 
framework (#48), 521 
steps (4658), 520 -522 
speech recognition 《语音 识别 ) 430 
speed, classification (速度 ， 分 类 ) 369 


spiral method (螺旋 式 方法 ) 152 
split-point 《分 裂 点 ) 333, 340, 342 
splitting attributes (分裂 属性 ) 333 
splitting criterion (分 裂 准 则 ) ，333 ，342 
splitting rules 《分裂 规则 ) J attribute selection measures 
splitting subset ( 分裂 子 集 ) 333 
SQL, as relational query language ( SQL， 作 为 关系 查询 语 
言 ) ，10 
square-error function (平方 误差 函数 )，454 
squashing function ( #FFERRL) , 403 
standard deviation (标准 差 )，51 
example (例子 ) ，51 
function of ( ~ 的 函数 ) 50 
star schema 〈 星 形 模式 ) 139 
example 〔〈 例 子 ) 139 - 140 
illustrated (las), 140 
snowflake schema versus (雪花 模式 与 ~ ) 140 
Star-Cubing, 204 -210, 235 
algorithm illustration 〈 算 法 图 示 ) 209 
bottom-up computation (〈 自 底 向 上 计算 ) 205 
example 《例子 ) 207 
for full cube computation 〈《 用 于 完全 立方 体 计 算 ) 210 
ordering of dimensions and (〈 维 次 序 与 ~ ) 210 
performance (性 能 ) 210 
shared dimensions ( 共享 维 ) , 204 -205 
stamet query model ( 星 网 查询 模型 )，149 
example (例子 )，149 -150 
star-nodes ( 星 结 点 ) 205 
star-trees ( 星 树 )，205 
compressed base table (压缩 的 基本 表 ) 207 
construction 〈 构造 ) 205 
statistical data mining (统计 学 数据 挖 拨 ) 598 - 600 
analysis of variance 《方差 分 析 ) ，600 
discriminant analysis (判别 式 分 析 ) 600 
factor analysis ( 要 素 分 析 ) 600 
generalized linear models 〈 广 义 线性 模型 ) 599 - 600 
mixed-effect models (混合 效应 模型 ) 600 
quality control ( 质量 控制 ) ，600 
regression ( 回归) 599 
survival analysis (生存 分 析 ) 600 
statistical databases (SDB， 统 计数 据 库 ) ，148 
OLAP systems versus (OLAP 系统 与 ~ ) 148 -149 
statistical descriptions (统计 描述 ) 24, 79 
graphic displays (图 形 显示 ) , 44-45, 51 - 56 
measuring the dispersion (度量 散布 ), 48 -51 
statistical hypothesis test (统计 假设 检验 ) 24 
statistical models ( 统计 学 模型 )，23 -24 
of networks (网 络 的 ~ ) ，592 - 594 
statistical outlier detection methods (统计 学 离 群 点 检测 方 
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法 )，552, 553 -560，581 
computational cost of ( ~ 的 计算 开销 ) ，560 
for data analysis 《用 于 数据 分 析 ) 625 
effectiveness (有 效 性 ) 552 
example (HIF), 552 
nonparametric ( 非 参数 的 ) ，553，558 -560 
parametric (参数 的 )，553 -558 
见 outlier detection 
statistical theory, in exceptional behavior disclosure (统计 学 
理论 ， 蜡 常 行为 分 析 ) 291 
statistics 《统计 学 ) 23 
inferential (推断 ) 24 
predictive ( 预测 的 ) 24 
StatSoft ，602 ，603 
stepwise backward elimination 《逐步 向 后 删除 ) 105 
stepwise forward selection (逐步 向 前 选择 ) 105 
stick figure visualization (人 物 线条 图 可 视 化 ) 61-63 
STING, 479 -481 
advantages (优点 ) ，480 -481 
as density~ based clustering method ( 作为 基于 密度 的 聚 类 
方法 ) ，480 
hierarchical structure 〈 层 次 结构 ) 479, 480 
multiresolution approach (多 分 辨 率 方法 ) 481 
见 cluster analysis ，grid- based methods 
stratified cross-validation 《分 层 交叉 验证 ) ，371 
stratified samples (分 层 抽样 )，109 - 110 
stream data ( 流 数 据 ) 598, 624 
strong association miles ( 强 关联 规则 ) ，272 
interestingness and ( 兴趣 度 与 ~ ) 264 -265 
misleading (iR), 265 
Structural Clustering Algorithm for Networks (SCAN， 网 络 结 
构 聚 类 算法 ) , 531 - 532 
structural context- based similarity (基于 结构 情境 的 相似 
性 }，526 
structural data analysis (结构 数据 分 析 )，319 
structural pattems (结构 模式 ) 282 
structure similarity search (结构 相似 性 搜索 ) 592 
stmctures (结构 ) 
as contexts (作为 情境 ) ，575 
discovery of (结构 的 发 现 ) ，318 
indexing (索引 ) 319 
substructures 〈 子 结构 ) 243 
Student’ s t-test (研究 者 的 上 -检验 ) 372 
subcube queries 〔 子 立方 体 查询 ) 216, 217 -218 
sub-itemset pruning 〈 子 项 集 剪 枝 ) 263 
subjective interestingness measures ( 主观 兴趣 度 度量 ) ，22 
subject- oriented data warehouses (面向 主题 的 数据 仓 
库 )，126 
subsequence ( 子 序列 ) 589 
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matching ( ~ 匹配) ，587 
subset checking ( FÆRA), 263 -264 
subset testing ( 子 集 检验 ) 250 
subspace clustering 〈 子 空间 聚 类 ) 448 
frequent patterns for (用 于 ~ 的 频繁 模式 ) 318 -319 
subspace clustering methods 〈 子 空间 聚 类 方法 ) 509, 510 - 
511, 538 
biclustering (RŽ), 511 
correlation-based (基于 相关 性 的 ~ )，5S11 
examples (例子 )，538 
subspace search methods ( 子 空间 匹配 方法 )，510 -511 
subspaces ( 子 空间 ) 
bottom-up search ( 自 底 向 上 搜索 ),，510 -511 
cube space (立方 体 空 间 )，228 -229 
outliers in ( ~ 中 的 离 群 点 ) 578 -579 
top-down search ( 自 顶 向 下 搜索 )，511 
substitution matrices (置换 矩阵 ) ，590 
substructures 〈 子 结构 ) 243 
sum of the squared error (SSE ， 误 差 的 平方 和 ) , 501 
summary fact tables (汇总 事实 表 ) ，165 
superset checking ( 超 集 检查 ) 263 
supervised leaming (监督 学 习 ) 24, 330 
supervised outlier detection (监督 的 离 群 点 检测 ) ，549 -550 
challenges (挑战 ) ，550 
support 《支持 度 ) 21 
association rule (关联 规则 ) , 21 
group-based ( 基于 分 组 的 ~ ) 286 
reduced (递减 ~ ) 285, 286 
uniform 〈 一致 ~ ), 285 -286 
support, rule (支持 度 ， 规 则 ) 245, 246 
support vector machines (SVM ， 支 持 向 量 机 ) 393, 408 - 
415，437 
maximum marginal hyperplane 〈 最 大 边缘 超 平面 ) 409, 412 
nonlinear ( 非 线 性 的 ) 413 -415 
for numeric prediction ( 用 于 数值 预测 ) 408 
with sigmoid kemel (使 用 S 形 核 ) 415 
support vectors (支持 向 量 ) ，411 
for test tuples (用 于 检验 元 组 ) 412 -413 
training/testing speed improvement (提高 训练 /检验 速 
HE), 415 
support vectors ( 支持 向 量 ) 411, 437 
illustrated ( PAS), 411 
supremum distance ( EMREN), 73-74 
surface Web (表层 网 ) 597 
survival analysis (生存 分 析 ) ，600 
SVMs, J support vector machines 
symbolic sequences (445 FFI), 586, 588 
applications (iA), 589 
sequential pattern mining in ( ~ "P AY FR Dil Ba st dS M), 


588 — 589 
symmetric binary dissimilarity 《对 称 的 二 元 相 异 性 ) ，70 
synchronous generalization (同步 汉化 ) 175 


T 


tables (#2), 9 
attributes 〔〈 属性 ) 9 
contingency 〈 相依 ~), 95 
dimension ( 维 ~), 136 
fact (HZ ~), 165 
tuples (7048), 9 
tag clouds (标签 云 ), 64, 66 
Tanimoto coefficient (Tanimoto 系数 ) 78 
target classes ( 目标 类 ) 15, 180 
initial working relations ( ~ 初始 化 工作 关系 ) 177 
prime relation ( ~ 主 关系 ) 175, 177 
targeted marketing (定向 销售 ) 609 
taxonomy formation (分 类 法 形成 )，20 
technologies (技术 )，23 -27, 33, 34 
telecommunications industry 《电信 业 ) ,611 
temporal data 《时间 数据 ) 14 
term-frequency vectors ( 词 频 向 量 ) 77 
cosine similarity between ( ~ 间 的 余弦 相似 性 ) 78 
sparse (FERRI), 77 
table ( ~ 表 ) 77 
terminating conditions (终止 条 件 ) 404 
test sets (检验 集 ) ，330 
test tuples 《检验 元 组 )，330 
text data (文本 数据 ) ，14 
text mining (文本 挖 抉 ) ，596 -597 624 
theoretical foundations (理论 基础 )，600 ~601, 625 
three-layer neural networks 《三 层 神 经 网 络 ) , 399 
threshold- moving approach ( PU(A SIA), 385 
tilted time windows (倾斜 时 间 黎 口 )，598 
timeliness, data (时 效 性 ， 数 据 ) ，85 
time-series data (时 间 序 列 数 据 ) , 586, 587 
cyclic movements (周期 动向 ) ，588 
discretization and (离散 化 与 ~ ) 590 
illustrated (图 示 ) ，588 
random movements 〈 随机 动向 ) ，588 
regression analysis (回归 分 析 ) ，$87 -588 
seasonal variations (季节 变化 )，588 
shapelets method (shapelet 方法 ) ，590 
subsequence matching 〈 子 序列 匹配 ) ，587 
transformation into aggregate approximations ( 变换 成 聚集 近 
似 ) ，587 
trend analysis (趋势 分 析 ) , 588 
trend or long-term movements ( 趋势 或 长 期 动向 ) 588 
time-series data analysis (时 间 序 列 数据 分 析 ) 319 


time-series forecasting ( 时间 序列 预测 ) 588 
time-variant data warehouses 《时 变 的 数据 仓库 ) ，127 
top-down design approach ( 自 顶 向 下 设计 方法 )，133，151 
top-down subspace search ( 自 顶 向 下 子 空间 搜索 ) ,511 
top-down view ( 自 顶 向 下 视图 )，151 
topic model ( 主题 模型 ) 26 -27 
top-k patterns/rules (top- 大 模式 /规则 , 281 
top-& queries (top-k #7]) , 225 
example (例子 ) , 225 -226 
ranking cubes to answer 〈 回 答 ~ 的 排序 立方 体 ) 226 -227 
results 〈 结果) 225 
user-specified preference components (用 户 指定 的 优选 条 
件 ) 225 
top-k strategies ( top-k 策略 ) 
comparison illustration ( 比较 解释 ) 311 
summarized pattern ( 概括 模式 ) 311 
traditional (传统 的 ~), 311 
TrAdaBoost, 436 
training ( 训练 ) 
Bayesian belief networks 〈 贝 叶 斯 信念 网 络 ) , 396 -397 
data ( ~ 数据 ) 18 
sets ( ~ 集 )，328 
tuples ( ~ 元 组 ) 332 -333 
transaction reduction 《事务 归 约 ) 255 
transactional databases ( 事务 数据 库 ) 13 
example (HF), 13-14 
transactions , components of (#4 ， 一 的 成 分 ) , 13 
transfer leaming (迁移 学 习 ) 430, 435, 434 -436, 438 
applications (应 用 ) 435 
approaches to (方法 ) 436 
heterogeneous (混杂 ~ ) 436 
negative transfer and ( HERS ~), 436 
target task ( 目标 任务 ) 435 
traditional learning versus (传统 的 学 习 与 ~ ) 435 
treemaps ($f), 63, 65 
trend analysis ( 趋势 分 析 ) 
spatial (空间 ~ ) 595 
in time-series data 《时 间 序 列 数据 中 的 ~ ) 588 
for time- series forecasting 《用 于 时 间 序 列 预测 ) ，588 
trends, data mining ( 趋势， 数据 挖 据 ) ，622 - 625 626 
triangle inequality ( 三 角 不 等 式 )，73 
trimmed mean ( 截 尾 均 值 ), 46 
iimodal (三 峰 的 ) ，47 
true negatives (Afi fil), 365 
true positives (真正 例 )，365 
t-test (上 -检验 ) 372 
tuples (元 组 ), 9 
duplication (重复 ~), 98 -99 
negative (f ~), 364 


partitioning (84>), 334, 337 

positive (JE ~ ) 364 

training (训练 ~ ) 332 ~333 
two sample t-test (两 个 样本 的 上 检验 ) 373 
two-layer neural networks (两 层 神经 网 络 ) 399 
two-level hash index structure ( 两 级 散 列 索引 结构 )，264 


U 


ubiquitous data mining ( 普 适 的 数据 挖掘 ) 618 -620，625 
uncertainty sampling (不 确定 抽样 ) 433 
undersampling 〔( 欠 抽样 ) 384, 386 
example (例子 ) 384 -385 
uniform support 《一致 支持 度 )，285 -286 
unimodal ( 单 峰 的 ) 47 
unique rules 〈 唯 一 规则 ) ，92 
univariate distribution (一 元 分 布 ) 40 
univariate Gaussian mixture model (一 元 高 斯 混合 模型 ) 504 
univariate outlier detection (一 元 离 群 点 检测 )，554 -555 
unordered attributes 〈 无 序 属 性 )，103 
unordered rules ( 无 序 规则 ) ，358 
unsupervised learning (无 监督 学 习 ) ，25 ，330，445 ，490 
clustering as (RAWEA ~), 25, 445, 490 
example (〈 例子 ) 25 
supervised learning versus ( 监督 学 习 与 ~ ) 330 
unsupervised outlier detection (无 监督 的 离 群 点 检测 ) ，550 
assumption 《假定 ) ，550 
clustering methods acting as (〈 聚 类 方法 充当 ~ ) 551 
upper approximation ( 上 近似 ) 427 
user interaction (用 户 交 互 )，30 -31 


V 


values ( 值 ) 
exception (异常 ~ ) 234 
expected (期 望 ~ ) 97, 234 
missing (缺失 ~ )，88 -89 
residual ( 残 差 ~ ) 234 
in rules or patterns (规则 或 模式 中 的 ~ ) 281 
variables ( 变量 ) 
grouping (分 组 ~), 231 
predicate (谓词 ~), 295 
predictor ( 预测 ~ ) 105 
response ( 响应 ~), 105 
variance (2%), 51, 98 
example (fil), 51 
variant graph pattems (形形色色 的 图 模式 ) 591 
version space (解释 空间 ) 433 
vertical data format (垂直 数据 格式 ) 260 
example (例子 ) ，260 - 262 
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frequent itemset mining with (使 用 ~ 的 频繁 项 集 挖 据 ) ， 
259 - 262, 272 
video data analysis (视频 数据 分 析 ) , 319 
virtual warehouses ( 虚拟 仓库 ) 133 
visibility graphs (FJ LFA), 537 
visible points ( 可见 点 ) 537 
visual data mining ( 可 视 数据 控 据 ) , 602 -604, 625 
data mining process visualization ( 数据 挖掘 过 程 可 视 化 ) , 
603 
data mining result visualization 《数据 挖 据 结 果 可 视 化 ) 603 
data visualization (数据 可 视 化 ) , 602 - 603 
as discipline integration ( ~ 作为 学 科 融 合 ) 602 
illustrations (lax) , 604 -607 
interactive ( 交互 式 ~), 604, 607 
as mining trend ( ~ 作为 控 掘 趋势 ) 624 
Viterbi algorithm (Viterbi 算法 ) 591 
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warehouse database servers (仓库 数据 库 服 务 器 ) 131 

warehouse refresh software (仓库 刷新 软件 ) ，151 

waterfall method (瀑布 方法 ) 152 

wavelet coefficients ( 小 波 系数 ) 100 

wavelet transforms (小 波 变换 ) 99, 100 -102 
discrete (DWT， 离 散 ~), 100-102 


for multidimensional data ( 多 维 数据 的 ~ ) 102 
on sparse and skewed data ( 稀 巩 和 倾斜 数据 上 的 ~ )， 
102 

Web directories (网 络 目录 ) 28 
Web mining ( Web 挖掘 ) 597, 624 

content ( 内容) 597 

as mining trend ( ~ 作为 挖掘 趋势 ) 624 

structure (结构 )，597 -598 

usage 〈 使 用 ) 598 
Web search engines ( Web 搜索 引擎 ) 28, 523 - 524 
Web-document classification (Web 文档 分 类 ) , 435 
weight arithmetic mean (加 权 算 术 平均 ) 46 
weighted Euclidean distance (加 权 的 欧 氏 距离 )，74 
Wikipedia, 597 
WordNet, 597 
working relations (工作 关系 ) 172 

initial (初始 ~), 168, 169 
World Wide Web (WWW, FÆR), 1-2, 4, 14 
Worlds-with- Worlds (世界 中 的 世界 ) 63, 64 
wrappers (包装 程序 ) 127 


Z 


z-score normalization (z 分 数 规范 化 ) 114-115 


